主题：我所了解的中国“棱镜”情况 -- 汴梁牛二

共:💬146 🌺1539 🌵8

老大河待整

一天一亿条

这个量对大数据体系来说倒不是很大，我现在给用户搭的一个实验系统，已经过了10亿的测试，正在做百亿的测试，当然不是每天的量。每天大概是几个亿吧。

重点是后面的解码、关联、分析。要考虑时效性和具体要执行的操作。如果在分钟级或者更长的粒度上，或者是批处理型任务，解决方案还是比较多的。有很多用hadoop做前端ETL的，效果不错。至于关联分析，这个概念现在炒的比较多，但不少都是基于查询、统计的，再加上一些行业数据建模等，这个很多都是基于M/R来作的，现在也有在尝试MPP的。其实主要看时效和任务类型吧。真正要秒级或者多维查询等，还是要下些功夫的。真正的分析，包括预测等，现在需求很多，但做的好的，特别是行业应用做的好的，还真不太多。个人认为，主要是行业know-how大家都是空白，这个需要数据分析师、算法工程师等一起努力了。至于工具，其实反倒不少。

全看分页树展 · 主题跟帖

相关回复上下关系8
- - 🙂NSA的数据处理存储容量按Yottabyte级别的 3 OldBadBug 字424 2013-06-24 00:18:56
    🙂原始数据被就近存入有简单索引功能的海量分布式文件系统 10 uphere 字398 2013-06-23 15:01:56
    🙂老兄看起来是大数据分析的行家啊 2 汴梁牛二字149 2013-06-23 20:11:46
    🙂一天一亿条
    🙂股市？桥上字0 2013-06-24 09:07:23
    🙂如果之前没有技术积累的话，上hadoop就可以了。季侯字32 2013-06-24 05:20:02
    🙂都是销售会议和面试上听来的 uphere 字99 2013-06-23 20:49:07
  - 🙂我所了解的中国“棱镜”情况（二） 258 汴梁牛二字2998 2013-06-23 00:48:39

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明