五千年(敝帚自珍)

主题:中国成功研制千万亿次超级计算机“天河一号” -- kernelh

共:💬21 🌺16
全看分页树展 · 主题 跟帖
家园 不光是软件的问题

使用MPI类的并行工具,如果一个节点在计算中死掉,则结果必须全部重算。一次使用上千CPU,很难保证所有节点和其链接链路在足够长的时间内不死。当然,这个问题也可以转化成软件问题,即在软件设计中加入checkpoint机制。但是不是所有算法都有好的checkpoint机制可实现的。

而海量数据计算则没有这个问题。单个节点的故障可以由重新提交该节点正在计算的任务来解决。只要把任务划分到适当大小(一般是单个节点运行5-30分钟),整个集群相当于一个高可靠计算平台。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河