五千年(敝帚自珍)

主题:关于大数据 -- jent

共:💬18 🌺118
全看分页树展 · 主题 跟帖
家园 关于大数据因何为大的问题

个人倾向于认为。大数据之大,在于数据量的增加使得有用信息非线性“涌现”。哲学一点的话说是整体大于部分之和。

这个定义有两个问题,第一,达到涌现新信息的数据量的阈值是多少?(也就是楼主所谓多大的数据算大数据的问题)诸如synergetics这样的学科确实在讨论某种子系统相干作用并出现整体上时空有序的问题。但是现在并不能给出出现有序结构所需的最低子系统数目的标准。

第二个问题与第一个是联系的。这个涌现出来的新信息是“有用的”。这个有用的标准如何定义?事实上在不同的角度看,有用的定义是不同的,这也部分地决定了涌现的阈值。这里的“有用”实际上涉及了一个语义信息的问题。即信息对信宿的意义问题。一个思路是,信宿对接收到的每个信源符号有一个先验的概率。如果接收到的信息的先验概率非常低。那么即使这个信息在信源那里是没什么意义的(高概率事件),它对于信宿仍有很大的信息含量。

现在的通信理论,通常认定信源到信宿的信息量。如果是无噪音信道。就保持不变。但是,大数据的最大特点是,信息量在信源和信宿可能有完全不同的量。换句话说大数据的信道内在地对其所传输的信息有扭曲或者加工而改变其信息量的能力。不突破这个问题寻找新的信道模型。个人意味对大数据不会有理论上的根本性进展。

通宝推:jent,
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河