主题:关于大数据 -- jent
泼点冷水罢了。
---------------------
1,什么是大数据
大数据,是大数据文件,还是大量的数据文件?要多大,KB,MB,GB,TB,PB,EB?还是说是大范围的数据,包括文本,图像,视频。。。
至少到2014年,大数据还没有一个准确的范畴定义。这是IEEE关于大数据的特别报告集里的说法。这里的问题就在于,一个大字,每天都在变:更多的设备被应用到日常生活,每天都有超越以往所有的比特在网络产生,流动,湮灭,同样,每天都有更多的超越以往的对这些比特流的使用,应用在发生,而这样的使用,应用,又进一步产生更大量的数据流。。。
那么。就是大数据是什么?
2,大数据是各种 IT 技术发展的汇聚点
2.1,光纤通信,DSL接入,Wifi,LTE,等等等等的通信连接转换设备,越来越多的带宽,越来越低廉的价格,使得网络大数据传输成为可能。
2.2,光学技术与半导体集成电路技术使得大规模的数据存储成为可能。
2.3,各种 sensor 技术使得数据的日常获取越来越便捷。
2.4,数据库技术的长时间发展与广泛应用提供了足够的,初始的结构化数据的来源,并提供了新数据处理方式的原始脉络。
2.5,人工智能技术,包括图像视频文本的理解分析,原始数据的结构化挖掘,自然语言处理,机器学习等等等,使得从已有数据中获得新的惊喜知识成为每天都在发生的事情。
2.6,摩尔定律使得数据处理的成本越来越低廉,但是效率却越来越高。
2.7,移动通信技术使得每个人每个时刻在每个地方都在为数据的越来越大做出贡献。
2.8,网络信息检索技术,使得数据/知识的应用与分布越来越扁平化。
2.9,基于上述各项技术的发展,越来越多的应用领域得到了新的推动助力。。。
3,我们能够从大数据中得到什么?
2007年一月11日,Jim Gray,微软的资深科学家,在给美国国家研究委员会的报告中,提出了一种新的科学研究范式:密集数据里的科学发现。这是自观察,实验,计算机模拟后的又一种科学研究范式。
换句话说,人类有了一种新的知识获取的方式。而这个方式是自生产的:数据,数据中获得知识,知识本身就是数据,从数据中再获得知识,。。。以此递进,这是一种自生产,自组织的,自我成长的,知识体系。
3.1,举例而言,你问过自己下面三个问题吗?
你喜欢恐怖片么?你曾经独自去外国旅行过么?觉得去驾驶帆船好玩么?
好吧,告诉你为什么你可以问问自己这么三个问题。这是美国一个社交网站总结出来的,如果你想找能够相守一生的伴侣的话,这三个问题的答案可以作为参考。(我觉得在中国可能不靠谱)。
3.2,那么来一个靠谱一点的吧:你和女友/老婆经常吵架为了什么?钱么?缺钱么?。。。。
大数据分析结果是:不是因为缺钱,而是因为你们俩对如何花钱不一致(这不是废话么)。
4,大数据下的挑战
首先是数据安全。谁能使用,谁应该拥有,谁能够维护我们的数据,并保证这样的数据应用不会给我们带来安全上的问题?
然后是个人的隐私,你懂的
而且人工智能还不那么靠谱吧。。。连我的 l n 不分都分辨不出来
难道我们就能够依赖冷冰冰的机器,网络,和数据吗?还要人干吗?
5,毋庸置疑,大数据时代已经来到了。你我都在其中。
互联网上每秒钟都在不停地刷新上传下载流通各种数据。你知道你不是用并不意味着你不在其中。
互联网上每秒钟都在产生海量的信息流动以满足各种应用的需求,而这些海量的信息流动就是知识的流动与生产,并进一步产生数据,知识,这已经就是一种新的智能的存在。
大数据意味着统计,预测,结构化的信息随时随地都在发生,产生,应用,这是我们人类新的智能体系。
新的时代已经来了。
---------------------------
6,你我如何做?
---------------------------
投身于IT吗?去做大数据吗?
No。因为在挨踢的想挨踢得人太多了,不缺一个你,也不缺一个我。
干自己的活,让大数据为你我而服务,用大数据提升你我,用大数据改善自己的生活,推动自己的事业,仅此就足够你我忙不过来了。
一句话,认识到大数据时代的到来,站稳自己的领域,将两者结合起来,就是你我在大数据下的选择。
你我各有自己的专业骄傲的,不是么。
我的个人看法,乱哄哄大数据嘈杂声中间,有非常多的胡扯,但是也的确有实实在在的科学和工程的进步,也的确有若干商业价值。现在并没有人来做很好的梳理,恐怕现在也并不具备做很好梳理的条件,还是需要等待事情有所发展,有所沉淀后,才有可能看清楚什么是真的,好的,什么是胡扯,什么是骗子,等等。
不过,还是有若干可以现在看清楚的事情。我来列举一二。
1. 这段话值得再次引用:
的确,很多人认为,新的科学认知范式正在形成,那就是基于大数据的认知范式。但是,仍然有可能这个所谓的新的认知范式,其实不过是旧的认知范式以新面孔出现而已。是否如此,需要很认真的讨论。究竟这个大数据范式仅是已经用了很多年的统计范式的一种扩大化,并没有实质性的新东西在里面,还是这个大数据范式的确是一种新的范式,和传统的统计范式很不同?至少对我而言,这个并不清楚。有待观察。
但是,不管怎样讲,无论是否为全新的范式,大数据的确提供了一个强有力的手段,可以在这个基础上展开科学活动。当然更多的是开展商业活动。这点是清楚的。
2. 还有一点比较清楚的,那就是,这个工具并不可能有真正的智力,如下面引言所预测的那样:
3. 还是引用一段:
我们应该分清:信息,数据,知识,智能。我对你的这段描述持反对意见。信息不能自动产生知识,同样,知识不能自动产生智能。怎么从信息产生知识?这是非常困难的问题,没有谁有比较明确的解答。同样的,知识到智能也是如此。因此,可以看清楚的就是:必须要有合理的社会结构,才能做好处理信息,进而把信息转化成正确的知识,然后试图用更新更多的知识来提升整个社会的智能。不过,最后的这一点,最好持一些悲观态度。看看社会如何对待污染问题,就知道社会的智能和知识的积累有多遥远。
这个图片表达的目前网上热烈讨论的趣味问题。当然,这个难度低,大家都会做。但是,计算机会做吗?显然,除非有一个比较高级的逻辑推理机,通常的计算机做不了这个题。这样的逻辑机,是有的,但是有多通用,就还是问题。我不知道现在已经很多的那些自动证明机能够做这个问题。我猜想,加以若干人工的初始化,应该是可以的,但是,完全不依赖人工,我估计,恐怕做不出来。
那么,是否有统计的方式来做这个趣味题目?或者用大量数据的方法来做?我不知道,但是估计这样的路子是有的。
个人倾向于认为。大数据之大,在于数据量的增加使得有用信息非线性“涌现”。哲学一点的话说是整体大于部分之和。
这个定义有两个问题,第一,达到涌现新信息的数据量的阈值是多少?(也就是楼主所谓多大的数据算大数据的问题)诸如synergetics这样的学科确实在讨论某种子系统相干作用并出现整体上时空有序的问题。但是现在并不能给出出现有序结构所需的最低子系统数目的标准。
第二个问题与第一个是联系的。这个涌现出来的新信息是“有用的”。这个有用的标准如何定义?事实上在不同的角度看,有用的定义是不同的,这也部分地决定了涌现的阈值。这里的“有用”实际上涉及了一个语义信息的问题。即信息对信宿的意义问题。一个思路是,信宿对接收到的每个信源符号有一个先验的概率。如果接收到的信息的先验概率非常低。那么即使这个信息在信源那里是没什么意义的(高概率事件),它对于信宿仍有很大的信息含量。
现在的通信理论,通常认定信源到信宿的信息量。如果是无噪音信道。就保持不变。但是,大数据的最大特点是,信息量在信源和信宿可能有完全不同的量。换句话说大数据的信道内在地对其所传输的信息有扭曲或者加工而改变其信息量的能力。不突破这个问题寻找新的信道模型。个人意味对大数据不会有理论上的根本性进展。
而这个领域的出现乃至发展一开始就是在现有的已有的数据库中搜寻在建立库的数据过程中乃至在建立库的数据结构的过程中完全没有预料到的,却在一定规模的数据量出现后能够内在的存在的信息。
就是说,信源发出的信息,携带了信源本身并未有意意识到的信息。
而获取这样的信息以及获取这种信息的可能,并不存在于初始的信源信道和信宿之间的通信协议之中。却是直接存在于因为初始的通信协议而产生的得到了存储的数据当中。
换句话说,在信源,信道,和信宿之间的数据,成了新的信源,而得到这个新信源的人,成了新的信宿,获取这个新信源中的信息/数据的过程/通道,成了新的信道。
这个时候的通信协议,完全脱离了初始的信源与信宿间建立通信通道的初衷。
而这个可能的发生,很大程度上就在于数据在信道上的暂留性与开放性。
大数据与郑国渠
这两年,国内大数据貌似太阳能、风电样被炒的很火
贵州还开办了大数据交易中心,也许是全球第一个
国内政府在经济乏力,科技相对落后的情况下,强行推进大数据 ,甚至提升到国家战略层面,却有可能陷入欧美国家的战略陷阱当中。
春秋战国的郑国渠,美帝的星球大战,都是成功的经典战略欺骗案例,还有所谓的千年虫、.com科技泡沫经济,都历历在目
一个国家的资源是有限的,战略重点也是有限的,不可能到处重金投入
国内前几年火爆的太阳能、风电新能源,目前都处于行业性崩溃,而且,在短期内,也许20-30年内,甚至50年,无法恢复元气
由此,耗费的资金、人才、资源,只能是全民买单。
日本九十年代强推第五代电脑:人工智能电脑,方向错误,越努力越失败,今天的结果是,整个日本国家的IT产业崩溃,
国内政府强推大数据,提升为国家战略的另外两个“潜在”考虑,可能是:
::基于大数据、信息科技的新型“计划经济”,个人对经济不熟悉,但直觉上觉得不靠谱,至少目前没看到有这方面的理论体系,而成熟的理论体系,是项目成功的基本要素。
有了成熟的理论体系,未必一定成功,没有,绝对是失败
::建立类似1984的社会管理体系,这个更加不靠谱,网络危机公关的经典手法就是,采用大量的关联信息,淹没负面新闻。
一组(10台)电脑,每天可以发布上亿条信息(包括填写验证码),可以模拟千万级的用户数据。
(顺便说一句,个人是国内首家4A级网络公关公司的联合创始人之一,服务过150+国际500强,包括微软、奔驰、西门子)
淘宝、微信、app市场的好评刷单,目前高达50-80%以上,这么多的垃圾信息,将真实数据完全淹没.
政府其实也知道这点,所以提出了网络、手机实名制,以及目前的一卡通,希望能够强行绑定信息发布主体。
可是,即使20-30年后,一卡通完全推行,还是无法解决这些问题,至少,已经运行了十年的支付宝,目前的假号,才几元一个,最严密的银行卡也不过200-300元一张。
更何况,数据并非越多越好,有时候数据越多,精度更低,这个数学上称为:龙格现象
:实战测试,数据越多,反而会影响精度。目前个人数据分析的一个重点,就是“小”数据。老子《道德经·第六十三章》有云:天下大事,必做于细。
我在一个blog上面也找到了数学支持,龙格现象,http://zh.wikipedia.org/wiki/龙格现象
大数据其实并非新科技和高技术,其核心与本质,不过是数据分析,尤其是聚类分析
这点,国内武汉华中科大邓聚龙教授,1982年提出灰色系统理论、灰色数学当中灰色聚类、数据归一化算法,目前依然是最好的分析模型之一。
大数据分析的核心,是统计分析、聚类分析,以及各种各样、五花八门的分析模型。
这些分析模型与算法,大多基于传统的人工智能研究,什么啄木鸟算法、萤火虫算法、蚁群算法,大部分都是经验性、实验模型,缺乏系统的理论支持。
这些模型,全部都是高次多元的,而三元以上的n次(n>3)模型,除了特殊的经验公式,在数学上是无解的,至少目前没有一个通用的求解算法。
对于大数据这种新产业而言,全世界都在摸索,政府做决策,必须进行调研和试点,而不是听过几个专家,尤其是某些协会的人员胡说几句,就作为国家战略操作。
大数据产业,从概念到目前,不超过五年,因此试点是不存在的,以大数据作为核心战略,不要说国家,就是大企业,在全世界至今都没有一个成功的案例。
至于中国协会专家的意见,大家完全可以忽视,我的首部书籍,第二作者,现在就是中大的副院长,博导,可水平,也就哈哈而已。
关于大数据、高频交易和人工智能,
个人的基本观点:凡是无法通过“足彩数据”进行实盘测试的方案、算法,都是在耍流氓。
大数据并非无用,可最多不过成立3-5家类似联想级别的公司即可,完全不是国家级项目,更别说国家战略级项目。
作为国家战略,不管成功失败,我更担心是郑国渠效果。
郑国渠并非没用,时至今日,依然在造福国民。
郑国渠,从战术讲是个成功的项目,耗费了秦国大量战略资源后,从战略讲,属于基础建设,反而增强了秦国的国力。
相比郑国渠,大数据的的核心硬件服务器、软件、数据库,都要进口,而硬件服务器的折旧比汽车还快,最前沿的硬件,基本3年就基本价值归零,就是一堆废铁
因此,目前各地政府的批量上马数据中心、计算中心,投资回报更加令人担心,一个3-5年,回报率无限归零的项目,而且投资总额分分钟过万亿。
也许,大家会认为,这么多资金,上万亿砸下去,至少在人才方面会有收获,会培养一支自己的团队。
这个,也许,不过意思不大。
日本全民动员的第五代电脑,目前至少也有些国际上知名的IT项目:比特币、ruby语言,可是对日本IT产业的整体盘,没有多少帮助。
希望,太阳能、风电等新能源方面的失败,能够让政府国家谨慎
sorry,
因为在几个大数据群里,发现政府居然成为大数据的主力,有感而做,初稿未对郑国渠细细考究
理科生的坏习惯,不过不影响大局,谢谢几位指出的网友,不过这个是细节
希望大家多从主题方面展开讨论
将大数据比做郑国渠,的确有些不恰当,至少郑国渠现在依然在造福国民,而大数据的投资,数年后,只是一堆废铁
至于其中的团队,政府公务员,能够有什么人才,最好也不过是一群技术官僚,可能连技术两个字都称不上。
大数据项目,其实更接近日本九十年代的第五代电脑:人工智能计划
至少,当年、和现在的富士,是极少数能够制造商业级小型机的企业,包括CPU这点,国内目前尚未这个级别的企业
天河系列,的确取得了不少成果,特别在巨型级的架构方面,不过,这个是不计成本的国家投入,商业化没有多少竞争力
mit的学生,当年用ps游戏机cell芯片,现在用gpu显卡,攒的计算集群,配合linux,对于企业而言,性价比可能更高
把大数据和日本的第五代电脑对比下,大家会感觉更加贴切,不过,现在,谁知道小日本的这个东东?
大数据的通道是互联网,数据、信息是一次性消费产品,可以零成本传播、复制,互联网的核心只有两个字:free(免费)+open(开放)
积累的数据,一个连pm2.5、耕地面积,都是国家机密的政府,再多的数据,缺乏流动与共享,也是死数据,有意义吗?
本文是以下几篇blog的补充,
《大数据和高频量化交易》 http://blog.sina.com.cn/s/blog_7100d4220102vkai.html
《大数据观点补充》 http://blog.sina.com.cn/s/blog_7100d4220102vkdb.html
《大数据与郑国渠》 http://blog.sina.com.cn/s/blog_7100d4220102vkqd.html
1,价值观或者说价值取向上
当一项技术出现,发展,突破时,
我看重的是,它为我们带来了什么新的,以前没有的东西
而你看重的,它为我们带来了什么一再重复的,有案可查,可以类比的风险
2,方法论或者说如何实现我们所追求的价值/规避我们所认知的风险
我是看它能解决什么问题,不管是从理论上,还是从实践上,解决以前不能解决的问题,故而有意义
而你是看它不能解决什么问题,由此可推断,因为它不能解决你想解决的问题,故而无价值
------------------------
你说呢?
你说的两点我也认可,问题是大数据目前仍在史前阶段,萌芽、概念阶段,讲一个萌芽阶段的概念产品,作为国策,不要说国家,就是企业的董事会都无法通过
除了潜在的两个因素,不能不说是被第三方诱惑。。。
你既不知道大数据目前在做什么,也不知道它已经做过什么,更不知道是谁在做这些事情。
所以你才会有如下的观点,分别对应你上述三个方向的盲点:
大数据目前仍在史前阶段,萌芽、概念阶段
概念产品,作为国策,不要说国家,就是企业的董事会都无法通过
被第三方诱惑。。
另外我很好奇,为何你自认为是工程师?难道你事实上不是?或者事实上是却不被人认为是从而自认为是?
呵呵呵呵
至少百度百科 不少院士都在引用我十年前的论文 小日本盗版我十年前的软件作品,目前依然在网络流传
我自认是工程师,是因为真正的工程师,喜欢根据现实情况,提供具体的、可操作的解决方案,而不是实验室的空谈理论和概念。
另外,老邓当年改革,是有理论基础的,是往欧美资本社会开放,摸石头,不过是如何在中国的国情下结合,相当于新汽车的磨合期,
如果是永动机,再磨合也没有意义
把大数据和日本的第五代电脑对比下,大家会感觉更加贴切
至少,当年、和现在的富士,是极少数能够制造商业级小型机的企业,包括CPU这点,国内目前尚未这个级别的企业
天河系列,的确取得了不少成果,特别在巨型级的架构方面,不过,这个是不计成本的国家投入,商业化没有多少竞争力
mit学生,当年用ps游戏机cell芯片,现在用gpu显卡,着攒的计算集群,配合linux,对于企业而言,性价比可能更高
“可是对于耗费了重大战略资源的郑国而言,只能是悲剧。”
big data is like teenager sex, everybody wants to do it, nobody knows how to do it, everybody thinks others are doing it, so everybody claims he is doing it.