五千年(敝帚自珍)

主题:纪念毛泽东 -- ccceee

共:💬418 🌺5229 🌵128
全看分页树展 · 主题 跟帖
家园 大数据也有局限性

大数据,对于分析建国以来犯过的错误、经验可能有点帮助,对于用这些数据建立起的公式来为现在做参考还行,照着做肯定错得离谱。

首先建国以来有多少年?数据够大么?用来学习的参考因素(features)的数据准确吗?人文的数据如何量化?

不是随机样本,而是全体数据。就算用到了全体数据,over fit了怎么办?over fit的公式对未来的预测准确率下降,可接受吗?对于大是大非的问题,值得信赖么?

不是精确性,而是混杂性。引入修正参数排除混杂因素?

是因果关系,而是相关关系。可以通过数据分析事物之间的相关性,可是那又如何?凡事能够明确的相关性,通过人的常识完全可以确立。对于具体方面,量化可能还有用。扩大到人文上的、全体社会上的、跟政治相关的,有用么?

举个例子,对于大数据分析,预测天气还行,预测是否跟日本开战可以吗?

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河