五千年(敝帚自珍)

主题:【原创】数据仓库软件的评测心得 -- 河蚌

共:💬58 🌺197
全看分页树展 · 主题 跟帖
家园 看来我们是同行

我在国内TD干过四年,进公司的时候还叫NCR。Teradata一直倡导的一个理念就是adhoc,即灵活查询、即席查询或者随机查询。在国内实施DW仓库项目的时候,TD上很少建索引,因为无法预知用户提交的查询是什么样,所以没办法提前优化。

至于数据在各节点间的重新分布,在实际应用中是不可避免的。最常见的情况就是在两个table做join的时候,如果两个表都是按照同一个键值做的分布,那么性能最好,一个大join就变为多个节点上local的小join;如果分布是不一样的,一般情况下稍小的那个表就会按照其参与join的字段做重新分布,这样就有变成节点内部的小join了。

这个过程必然伴随着节点间数据的迁移,但是Teradata有一个特有的节点间互联技术BYNET。这是一个点对点的网络,不是和以太网一样共享带宽的,因此加入新节点后不会影响节点间数据传输的带宽。所以TD一直标榜的斜率为1的线性性能增长,依赖的2个绝活就是数据均匀分布+BYNET。

至于Update,数据仓库里是一定有的。举个例子,对于账户表,会那源系统给的增量数据去update仓库内昨天的表,以获取最新的状态。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河