五千年(敝帚自珍)

主题:关于大数据 -- jent

共:💬18 🌺118
全看树展主题 · 分页首页 上页
/ 2
下页 末页
家园 说这话的人,基本上。。。

他既不知道大数据目前在做什么,也不知道它已经做过什么,更不知道是谁在做这些事情。

这很正常。

其实大数据之所以能够对人类社会有巨大的推动作用,其根源说起来,很简单,也很直接。

申农在信息论里有个采样定理。说的就是

如果信号是带限的,并且采样频率大于信号带宽的2倍,那么,原来的连续信号可以从采样样本中完全重建出来。

换句话说,如若对信号的采样频率不够,那么信号总是失真的。问题只在于失真的程度有多大。

简单举例而言,人口普查。请问全国十三亿的人口变迁信号,技术上如何采样才能确保信号的失真在可容许范围之内?

那么现在大数据技术至少提供了局部的信号的实时采样的可能性,与之相比较的,则是人口统计局的以年为计的家家户户的走访,登记。

决策的依据来自于两条:信息与经验。恰恰是这两条,都在大数据技术的支持下使得信息的来源,密度,经验的周详,可靠,有了本质的变化。

其根源就在于大数据技术,本质上就是采样定理在技术上的可实现性以及在应用上的普适性。

这不是一两个笑话就能够否定的。类似的笑话,段子,在我们的生活中还少了么,可又有什么意义呢。

家园 试错,这个是一个政府带头的试错

现在是急于在工业上找到新的突破口,各种尝试还是有必要的,当然,太阳能发电现象也会不断发生,其实也没有什么,工业2025年规划,怎么实施,还是让大家把脑袋动起来,把干劲拿出来,政府带个头,大家都开始找各种创新和应用,政府都会扶持,就是这个号召而已。

当政府感觉大数据能带动多少就业和创新,应该还不会那么弱智吧,但是如果真的在数据相关性应用上取得一些进展,那还是很了不得的事情。

回想上一届政府的物联网,这个框也够大,收益多大我不知道,但是知道成功的带动了投资,让更多的公司关注这个概念,下精力开发这个市场了,也是好事。

政府不能算小账,要算更大的政治账。

家园 在年头上回看这个帖,有点意思啊

非常非常有意思:

在信源,信道,和信宿之间的数据,成了新的信源,而得到这个新信源的人,成了新的信宿,获取这个新信源中的信息/数据的过程/通道,成了新的信道。

我之前看的时候,理解这话的意思是,大数据的通信系统中,存在一个类似叠代的过程。但是具体如何迭代,当时并没有想法。

最近做一个课题,忽然想到一点,那个“在信源信道和信宿之间的数据成了新的信源”这话可以深入理解:首先,这些数据原来只是保存在信源中,然后在信宿中被再现。这是一个“小数据”的通信过程。但是要想成为大数据的通信过程,就要让这个数据动起来,也就是在传输中的数据才可能成为了信源,换句话说小数据的信道特征在这里是至关重要的。

小数据传输的是信息,信道特征用互信息来描述,而当小数据迭代形成大数据时,小数据传输过程成为新的信源,描述其信道特征的互信息成为大数据信源向大数据信宿传递的那个东西。

我的课题是把一个远离平衡态系统的演化过程描述为祖先系统和新系统间通信的过程。现在的问题是信源符号概率用shannon信息量描述总是不如互信息形式的描述更符合实验结果。这个大半年前的回帖给了我启发。这样的情况下,就是应该用互信息来描述,因为祖先系统被传输的的确不是简单的信息量,而是内部子系统间的通信方式。后代系统被重现和变异了的是祖先系统内部的子系统间通信方式。

有意思。

通宝推:sywyang,
全看树展主题 · 分页首页 上页
/ 2
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河