五千年(敝帚自珍)

主题:关于大数据 -- jent

共:💬18 🌺118
分页树展主题 · 全看首页 上页
/ 2
下页 末页
  • 家园 关于大数据

    泼点冷水罢了。

    ---------------------

    1,什么是大数据

    大数据,是大数据文件,还是大量的数据文件?要多大,KB,MB,GB,TB,PB,EB?还是说是大范围的数据,包括文本,图像,视频。。。

    至少到2014年,大数据还没有一个准确的范畴定义。这是IEEE关于大数据的特别报告集里的说法。这里的问题就在于,一个大字,每天都在变:更多的设备被应用到日常生活,每天都有超越以往所有的比特在网络产生,流动,湮灭,同样,每天都有更多的超越以往的对这些比特流的使用,应用在发生,而这样的使用,应用,又进一步产生更大量的数据流。。。

    那么。就是大数据是什么?

    2,大数据是各种 IT 技术发展的汇聚点

    2.1,光纤通信,DSL接入,Wifi,LTE,等等等等的通信连接转换设备,越来越多的带宽,越来越低廉的价格,使得网络大数据传输成为可能。

    2.2,光学技术与半导体集成电路技术使得大规模的数据存储成为可能。

    2.3,各种 sensor 技术使得数据的日常获取越来越便捷。

    2.4,数据库技术的长时间发展与广泛应用提供了足够的,初始的结构化数据的来源,并提供了新数据处理方式的原始脉络。

    2.5,人工智能技术,包括图像视频文本的理解分析,原始数据的结构化挖掘,自然语言处理,机器学习等等等,使得从已有数据中获得新的惊喜知识成为每天都在发生的事情。

    2.6,摩尔定律使得数据处理的成本越来越低廉,但是效率却越来越高。

    2.7,移动通信技术使得每个人每个时刻在每个地方都在为数据的越来越大做出贡献。

    2.8,网络信息检索技术,使得数据/知识的应用与分布越来越扁平化。

    2.9,基于上述各项技术的发展,越来越多的应用领域得到了新的推动助力。。。

    3,我们能够从大数据中得到什么?

    2007年一月11日,Jim Gray,微软的资深科学家,在给美国国家研究委员会的报告中,提出了一种新的科学研究范式:密集数据里的科学发现。这是自观察,实验,计算机模拟后的又一种科学研究范式。

    换句话说,人类有了一种新的知识获取的方式。而这个方式是自生产的:数据,数据中获得知识,知识本身就是数据,从数据中再获得知识,。。。以此递进,这是一种自生产,自组织的,自我成长的,知识体系。

    3.1,举例而言,你问过自己下面三个问题吗?

    你喜欢恐怖片么?你曾经独自去外国旅行过么?觉得去驾驶帆船好玩么?

    好吧,告诉你为什么你可以问问自己这么三个问题。这是美国一个社交网站总结出来的,如果你想找能够相守一生的伴侣的话,这三个问题的答案可以作为参考。(我觉得在中国可能不靠谱)。

    3.2,那么来一个靠谱一点的吧:你和女友/老婆经常吵架为了什么?钱么?缺钱么?。。。。

    大数据分析结果是:不是因为缺钱,而是因为你们俩对如何花钱不一致(这不是废话么)。

    4,大数据下的挑战

    首先是数据安全。谁能使用,谁应该拥有,谁能够维护我们的数据,并保证这样的数据应用不会给我们带来安全上的问题?

    然后是个人的隐私,你懂的

    而且人工智能还不那么靠谱吧。。。连我的 l n 不分都分辨不出来

    难道我们就能够依赖冷冰冰的机器,网络,和数据吗?还要人干吗?

    5,毋庸置疑,大数据时代已经来到了。你我都在其中。

    互联网上每秒钟都在不停地刷新上传下载流通各种数据。你知道你不是用并不意味着你不在其中。

    互联网上每秒钟都在产生海量的信息流动以满足各种应用的需求,而这些海量的信息流动就是知识的流动与生产,并进一步产生数据,知识,这已经就是一种新的智能的存在。

    大数据意味着统计,预测,结构化的信息随时随地都在发生,产生,应用,这是我们人类新的智能体系。

    新的时代已经来了。

    ---------------------------

    6,你我如何做?

    ---------------------------

    投身于IT吗?去做大数据吗?

    No。因为在挨踢的想挨踢得人太多了,不缺一个你,也不缺一个我。

    干自己的活,让大数据为你我而服务,用大数据提升你我,用大数据改善自己的生活,推动自己的事业,仅此就足够你我忙不过来了。

    一句话,认识到大数据时代的到来,站稳自己的领域,将两者结合起来,就是你我在大数据下的选择。

    你我各有自己的专业骄傲的,不是么。

    通宝推:空格,舞动人生,葡萄,啊凡,拿不准,鸿乾,海绵,
    • 家园 一个关于大数据的笑话,我觉得对于现在的状况还是很形象的

      big data is like teenager sex, everybody wants to do it, nobody knows how to do it, everybody thinks others are doing it, so everybody claims he is doing it.

      • 家园 说这话的人,基本上。。。

        他既不知道大数据目前在做什么,也不知道它已经做过什么,更不知道是谁在做这些事情。

        这很正常。

        其实大数据之所以能够对人类社会有巨大的推动作用,其根源说起来,很简单,也很直接。

        申农在信息论里有个采样定理。说的就是

        如果信号是带限的,并且采样频率大于信号带宽的2倍,那么,原来的连续信号可以从采样样本中完全重建出来。

        换句话说,如若对信号的采样频率不够,那么信号总是失真的。问题只在于失真的程度有多大。

        简单举例而言,人口普查。请问全国十三亿的人口变迁信号,技术上如何采样才能确保信号的失真在可容许范围之内?

        那么现在大数据技术至少提供了局部的信号的实时采样的可能性,与之相比较的,则是人口统计局的以年为计的家家户户的走访,登记。

        决策的依据来自于两条:信息与经验。恰恰是这两条,都在大数据技术的支持下使得信息的来源,密度,经验的周详,可靠,有了本质的变化。

        其根源就在于大数据技术,本质上就是采样定理在技术上的可实现性以及在应用上的普适性。

        这不是一两个笑话就能够否定的。类似的笑话,段子,在我们的生活中还少了么,可又有什么意义呢。

    • 家园 大数据与郑国渠

      大数据与郑国渠

      这两年,国内大数据貌似太阳能、风电样被炒的很火

      贵州还开办了大数据交易中心,也许是全球第一个

      国内政府在经济乏力,科技相对落后的情况下,强行推进大数据 ,甚至提升到国家战略层面,却有可能陷入欧美国家的战略陷阱当中。

      春秋战国的郑国渠,美帝的星球大战,都是成功的经典战略欺骗案例,还有所谓的千年虫、.com科技泡沫经济,都历历在目

      一个国家的资源是有限的,战略重点也是有限的,不可能到处重金投入

      国内前几年火爆的太阳能、风电新能源,目前都处于行业性崩溃,而且,在短期内,也许20-30年内,甚至50年,无法恢复元气

      由此,耗费的资金、人才、资源,只能是全民买单。

      日本九十年代强推第五代电脑:人工智能电脑,方向错误,越努力越失败,今天的结果是,整个日本国家的IT产业崩溃,

      国内政府强推大数据,提升为国家战略的另外两个“潜在”考虑,可能是:

      ::基于大数据、信息科技的新型“计划经济”,个人对经济不熟悉,但直觉上觉得不靠谱,至少目前没看到有这方面的理论体系,而成熟的理论体系,是项目成功的基本要素。

      有了成熟的理论体系,未必一定成功,没有,绝对是失败

      ::建立类似1984的社会管理体系,这个更加不靠谱,网络危机公关的经典手法就是,采用大量的关联信息,淹没负面新闻。

      一组(10台)电脑,每天可以发布上亿条信息(包括填写验证码),可以模拟千万级的用户数据。

      (顺便说一句,个人是国内首家4A级网络公关公司的联合创始人之一,服务过150+国际500强,包括微软、奔驰、西门子)

      淘宝、微信、app市场的好评刷单,目前高达50-80%以上,这么多的垃圾信息,将真实数据完全淹没.

      政府其实也知道这点,所以提出了网络、手机实名制,以及目前的一卡通,希望能够强行绑定信息发布主体。

      可是,即使20-30年后,一卡通完全推行,还是无法解决这些问题,至少,已经运行了十年的支付宝,目前的假号,才几元一个,最严密的银行卡也不过200-300元一张。

      更何况,数据并非越多越好,有时候数据越多,精度更低,这个数学上称为:龙格现象

      :实战测试,数据越多,反而会影响精度。目前个人数据分析的一个重点,就是“小”数据。老子《道德经·第六十三章》有云:天下大事,必做于细。

      我在一个blog上面也找到了数学支持,龙格现象,http://zh.wikipedia.org/wiki/龙格现象

      大数据其实并非新科技和高技术,其核心与本质,不过是数据分析,尤其是聚类分析

      这点,国内武汉华中科大邓聚龙教授,1982年提出灰色系统理论、灰色数学当中灰色聚类、数据归一化算法,目前依然是最好的分析模型之一。

      大数据分析的核心,是统计分析、聚类分析,以及各种各样、五花八门的分析模型。

      这些分析模型与算法,大多基于传统的人工智能研究,什么啄木鸟算法、萤火虫算法、蚁群算法,大部分都是经验性、实验模型,缺乏系统的理论支持。

      这些模型,全部都是高次多元的,而三元以上的n次(n>3)模型,除了特殊的经验公式,在数学上是无解的,至少目前没有一个通用的求解算法。

      对于大数据这种新产业而言,全世界都在摸索,政府做决策,必须进行调研和试点,而不是听过几个专家,尤其是某些协会的人员胡说几句,就作为国家战略操作。

      大数据产业,从概念到目前,不超过五年,因此试点是不存在的,以大数据作为核心战略,不要说国家,就是大企业,在全世界至今都没有一个成功的案例。

      至于中国协会专家的意见,大家完全可以忽视,我的首部书籍,第二作者,现在就是中大的副院长,博导,可水平,也就哈哈而已。

      关于大数据、高频交易和人工智能,

      个人的基本观点:凡是无法通过“足彩数据”进行实盘测试的方案、算法,都是在耍流氓。

      大数据并非无用,可最多不过成立3-5家类似联想级别的公司即可,完全不是国家级项目,更别说国家战略级项目。

      作为国家战略,不管成功失败,我更担心是郑国渠效果。

      郑国渠并非没用,时至今日,依然在造福国民。

      郑国渠,从战术讲是个成功的项目,耗费了秦国大量战略资源后,从战略讲,属于基础建设,反而增强了秦国的国力。

      相比郑国渠,大数据的的核心硬件服务器、软件、数据库,都要进口,而硬件服务器的折旧比汽车还快,最前沿的硬件,基本3年就基本价值归零,就是一堆废铁

      因此,目前各地政府的批量上马数据中心、计算中心,投资回报更加令人担心,一个3-5年,回报率无限归零的项目,而且投资总额分分钟过万亿。

      也许,大家会认为,这么多资金,上万亿砸下去,至少在人才方面会有收获,会培养一支自己的团队。

      这个,也许,不过意思不大。

      日本全民动员的第五代电脑,目前至少也有些国际上知名的IT项目:比特币、ruby语言,可是对日本IT产业的整体盘,没有多少帮助。

      希望,太阳能、风电等新能源方面的失败,能够让政府国家谨慎

      sorry,

      因为在几个大数据群里,发现政府居然成为大数据的主力,有感而做,初稿未对郑国渠细细考究

      理科生的坏习惯,不过不影响大局,谢谢几位指出的网友,不过这个是细节

      希望大家多从主题方面展开讨论

      将大数据比做郑国渠,的确有些不恰当,至少郑国渠现在依然在造福国民,而大数据的投资,数年后,只是一堆废铁

      至于其中的团队,政府公务员,能够有什么人才,最好也不过是一群技术官僚,可能连技术两个字都称不上。

      大数据项目,其实更接近日本九十年代的第五代电脑:人工智能计划

      至少,当年、和现在的富士,是极少数能够制造商业级小型机的企业,包括CPU这点,国内目前尚未这个级别的企业

      天河系列,的确取得了不少成果,特别在巨型级的架构方面,不过,这个是不计成本的国家投入,商业化没有多少竞争力

      mit的学生,当年用ps游戏机cell芯片,现在用gpu显卡,攒的计算集群,配合linux,对于企业而言,性价比可能更高

      把大数据和日本的第五代电脑对比下,大家会感觉更加贴切,不过,现在,谁知道小日本的这个东东?

      大数据的通道是互联网,数据、信息是一次性消费产品,可以零成本传播、复制,互联网的核心只有两个字:free(免费)+open(开放)

      积累的数据,一个连pm2.5、耕地面积,都是国家机密的政府,再多的数据,缺乏流动与共享,也是死数据,有意义吗?

      本文是以下几篇blog的补充,

      《大数据和高频量化交易》 http://blog.sina.com.cn/s/blog_7100d4220102vkai.html

      《大数据观点补充》 http://blog.sina.com.cn/s/blog_7100d4220102vkdb.html

      《大数据与郑国渠》 http://blog.sina.com.cn/s/blog_7100d4220102vkqd.html

      通宝推:舞动人生,
      • 家园 试错,这个是一个政府带头的试错

        现在是急于在工业上找到新的突破口,各种尝试还是有必要的,当然,太阳能发电现象也会不断发生,其实也没有什么,工业2025年规划,怎么实施,还是让大家把脑袋动起来,把干劲拿出来,政府带个头,大家都开始找各种创新和应用,政府都会扶持,就是这个号召而已。

        当政府感觉大数据能带动多少就业和创新,应该还不会那么弱智吧,但是如果真的在数据相关性应用上取得一些进展,那还是很了不得的事情。

        回想上一届政府的物联网,这个框也够大,收益多大我不知道,但是知道成功的带动了投资,让更多的公司关注这个概念,下精力开发这个市场了,也是好事。

        政府不能算小账,要算更大的政治账。

      • 家园 所以,郑国渠就是郑国这个国家修的?

        “可是对于耗费了重大战略资源的郑国而言,只能是悲剧。”

      • 家园 基本上拜读了。在两个问题上你和我有区别

        1,价值观或者说价值取向上

        当一项技术出现,发展,突破时,

        我看重的是,它为我们带来了什么新的,以前没有的东西

        而你看重的,它为我们带来了什么一再重复的,有案可查,可以类比的风险

        2,方法论或者说如何实现我们所追求的价值/规避我们所认知的风险

        我是看它能解决什么问题,不管是从理论上,还是从实践上,解决以前不能解决的问题,故而有意义

        而你是看它不能解决什么问题,由此可推断,因为它不能解决你想解决的问题,故而无价值

        ------------------------

        你说呢?

        • 家园 我一直认为自己是工程师,我们的价值取向没有区别

          你说的两点我也认可,问题是大数据目前仍在史前阶段,萌芽、概念阶段,讲一个萌芽阶段的概念产品,作为国策,不要说国家,就是企业的董事会都无法通过

          除了潜在的两个因素,不能不说是被第三方诱惑。。。

          • 家园 所以说,基本上。。。

            你既不知道大数据目前在做什么,也不知道它已经做过什么,更不知道是谁在做这些事情。

            所以你才会有如下的观点,分别对应你上述三个方向的盲点:

            大数据目前仍在史前阶段,萌芽、概念阶段

            概念产品,作为国策,不要说国家,就是企业的董事会都无法通过

            被第三方诱惑。。

            另外我很好奇,为何你自认为是工程师?难道你事实上不是?或者事实上是却不被人认为是从而自认为是?

            呵呵呵呵

            • 家园 我的水平谈不上很高 但给几个博士做导师还是有余的

              至少百度百科 不少院士都在引用我十年前的论文 小日本盗版我十年前的软件作品,目前依然在网络流传

              我自认是工程师,是因为真正的工程师,喜欢根据现实情况,提供具体的、可操作的解决方案,而不是实验室的空谈理论和概念。

              另外,老邓当年改革,是有理论基础的,是往欧美资本社会开放,摸石头,不过是如何在中国的国情下结合,相当于新汽车的磨合期,

              如果是永动机,再磨合也没有意义

              把大数据和日本的第五代电脑对比下,大家会感觉更加贴切

              至少,当年、和现在的富士,是极少数能够制造商业级小型机的企业,包括CPU这点,国内目前尚未这个级别的企业

              天河系列,的确取得了不少成果,特别在巨型级的架构方面,不过,这个是不计成本的国家投入,商业化没有多少竞争力

              mit学生,当年用ps游戏机cell芯片,现在用gpu显卡,着攒的计算集群,配合linux,对于企业而言,性价比可能更高

    • 家园 关于大数据因何为大的问题

      个人倾向于认为。大数据之大,在于数据量的增加使得有用信息非线性“涌现”。哲学一点的话说是整体大于部分之和。

      这个定义有两个问题,第一,达到涌现新信息的数据量的阈值是多少?(也就是楼主所谓多大的数据算大数据的问题)诸如synergetics这样的学科确实在讨论某种子系统相干作用并出现整体上时空有序的问题。但是现在并不能给出出现有序结构所需的最低子系统数目的标准。

      第二个问题与第一个是联系的。这个涌现出来的新信息是“有用的”。这个有用的标准如何定义?事实上在不同的角度看,有用的定义是不同的,这也部分地决定了涌现的阈值。这里的“有用”实际上涉及了一个语义信息的问题。即信息对信宿的意义问题。一个思路是,信宿对接收到的每个信源符号有一个先验的概率。如果接收到的信息的先验概率非常低。那么即使这个信息在信源那里是没什么意义的(高概率事件),它对于信宿仍有很大的信息含量。

      现在的通信理论,通常认定信源到信宿的信息量。如果是无噪音信道。就保持不变。但是,大数据的最大特点是,信息量在信源和信宿可能有完全不同的量。换句话说大数据的信道内在地对其所传输的信息有扭曲或者加工而改变其信息量的能力。不突破这个问题寻找新的信道模型。个人意味对大数据不会有理论上的根本性进展。

      通宝推:jent,
      • 家园 对。大数据最直接的推手据我所知是数据挖掘

        而这个领域的出现乃至发展一开始就是在现有的已有的数据库中搜寻在建立库的数据过程中乃至在建立库的数据结构的过程中完全没有预料到的,却在一定规模的数据量出现后能够内在的存在的信息。

        就是说,信源发出的信息,携带了信源本身并未有意意识到的信息。

        而获取这样的信息以及获取这种信息的可能,并不存在于初始的信源信道和信宿之间的通信协议之中。却是直接存在于因为初始的通信协议而产生的得到了存储的数据当中。

        换句话说,在信源,信道,和信宿之间的数据,成了新的信源,而得到这个新信源的人,成了新的信宿,获取这个新信源中的信息/数据的过程/通道,成了新的信道。

        这个时候的通信协议,完全脱离了初始的信源与信宿间建立通信通道的初衷。

        而这个可能的发生,很大程度上就在于数据在信道上的暂留性与开放性。

        通宝推:空格,
        • 家园 在年头上回看这个帖,有点意思啊

          非常非常有意思:

          在信源,信道,和信宿之间的数据,成了新的信源,而得到这个新信源的人,成了新的信宿,获取这个新信源中的信息/数据的过程/通道,成了新的信道。

          我之前看的时候,理解这话的意思是,大数据的通信系统中,存在一个类似叠代的过程。但是具体如何迭代,当时并没有想法。

          最近做一个课题,忽然想到一点,那个“在信源信道和信宿之间的数据成了新的信源”这话可以深入理解:首先,这些数据原来只是保存在信源中,然后在信宿中被再现。这是一个“小数据”的通信过程。但是要想成为大数据的通信过程,就要让这个数据动起来,也就是在传输中的数据才可能成为了信源,换句话说小数据的信道特征在这里是至关重要的。

          小数据传输的是信息,信道特征用互信息来描述,而当小数据迭代形成大数据时,小数据传输过程成为新的信源,描述其信道特征的互信息成为大数据信源向大数据信宿传递的那个东西。

          我的课题是把一个远离平衡态系统的演化过程描述为祖先系统和新系统间通信的过程。现在的问题是信源符号概率用shannon信息量描述总是不如互信息形式的描述更符合实验结果。这个大半年前的回帖给了我启发。这样的情况下,就是应该用互信息来描述,因为祖先系统被传输的的确不是简单的信息量,而是内部子系统间的通信方式。后代系统被重现和变异了的是祖先系统内部的子系统间通信方式。

          有意思。

          通宝推:sywyang,
        • 家园 从信源,信宿的角度,就是从通信技术的角度,恐怕是觉得有不
分页树展主题 · 全看首页 上页
/ 2
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河