主题:关于大数据 -- jent
个人倾向于认为。大数据之大,在于数据量的增加使得有用信息非线性“涌现”。哲学一点的话说是整体大于部分之和。
这个定义有两个问题,第一,达到涌现新信息的数据量的阈值是多少?(也就是楼主所谓多大的数据算大数据的问题)诸如synergetics这样的学科确实在讨论某种子系统相干作用并出现整体上时空有序的问题。但是现在并不能给出出现有序结构所需的最低子系统数目的标准。
第二个问题与第一个是联系的。这个涌现出来的新信息是“有用的”。这个有用的标准如何定义?事实上在不同的角度看,有用的定义是不同的,这也部分地决定了涌现的阈值。这里的“有用”实际上涉及了一个语义信息的问题。即信息对信宿的意义问题。一个思路是,信宿对接收到的每个信源符号有一个先验的概率。如果接收到的信息的先验概率非常低。那么即使这个信息在信源那里是没什么意义的(高概率事件),它对于信宿仍有很大的信息含量。
现在的通信理论,通常认定信源到信宿的信息量。如果是无噪音信道。就保持不变。但是,大数据的最大特点是,信息量在信源和信宿可能有完全不同的量。换句话说大数据的信道内在地对其所传输的信息有扭曲或者加工而改变其信息量的能力。不突破这个问题寻找新的信道模型。个人意味对大数据不会有理论上的根本性进展。
- 相关回复 上下关系8
🙂所以说,基本上。。。 3 jent 字371 2015-04-24 02:15:32
🙂我的水平谈不上很高 但给几个博士做导师还是有余的 3 zw 字724 2015-04-24 23:35:31
🙂抱歉,学有所长,术有专攻,就事论事,而已 jent 字0 2015-04-25 02:20:00
🙂关于大数据因何为大的问题
🙂对。大数据最直接的推手据我所知是数据挖掘 7 jent 字672 2015-04-18 04:07:24
🙂在年头上回看这个帖,有点意思啊 6 空格 字1126 2016-01-10 03:18:33
🙂从信源,信宿的角度,就是从通信技术的角度,恐怕是觉得有不 越破 字0 2015-04-23 00:20:56
🙂没看明白您的意思。能详细说说吗? 空格 字0 2015-06-12 23:02:15