主题:【讨论】米帝一给力,中国的超级计算机前十都排不进去了! -- 菜菜西红柿
组个局域网, 搭个并行计算平台出来. 交换机好点的就成.
搞过
找蛋白质的folding @home, 找外星人的SETI@home, 都是. 这中间用的最多的就是BOINC项目的技术, 当然, 也有别家的东西.
我用的32个节点的集群,用的就是千兆以太网,用的也挺好,而且很多时候还用不满32个节点,毕竟8个小时和24小时,对于我来说都是一整天。
超级计算机比的就是超级能力,不计成本的超级能力。当然,这个不计成本也是相对普通计算机而言的,超级计算机之间也是比成本的,比如这次天河一号据说能耗也是相对低的,属于创新的一部分。
google有些失败的产品,谁也不知道啊。。俺去看看找外星人的。。
成在google工具栏里了。
超级计算机是严重领域相关的.这句话是我说的,我不知道专业人士怎么表达这个意思.
关于超级计算机的一些东西,可以看看上海超级计算中心的不定期电子杂志.外链出处
Linpack的确只比较传统的数值运算能力,完全不反映密码学以及生物、安全、社会等方面的能力,从这方面说天河一号这个第一不代表国内水平有多少领先.但是天河一号这个第一起码意味着在需要高强度数值运算能力的领域(比如有限元/流体力学等)国内有了一流的计算能力.
在Linpack排名第一的前提下,我们要注意天河一号在[计算能力/功耗]指标上不是第一(绿色TOP500榜),因此可以说数值运算问题放在天河一号上求解不是最省钱的.
实际上不同领域的问题需要不同体系结构的超级计算机.而某个领域的问题也有可能因为算法改进导致"嗜好"使用的超级计算机体系结构发生变化,总的来说这是一个以费效比为导向的问题.
技术能力的演进也会导致一定年代超级计算机体系结构的"趋势"或者说"风潮".
十三亿算盘加中国邮政能在Linpack上排名第几呢?这是个问题.
实际上某些问题或许不需要节点间紧密耦合(节点间通讯延迟可以大,带宽可以小),那么十三亿算盘使用起来效率就高一些.如果某计算任务的算法决定了整体运算效率对通讯延迟很敏感的话,十三亿算盘或100,000台Android智能手机就比较吃亏了.
现实过程经常是:
0)需要专门设计的硬件.(比如密码学可能倾向于使用能动态编程的硬件,比如基于FPGA的超级计算机.这种任务可能相对罕见一些,尤其对于巨大的数值运算计算任务需求来说.)
1)开发出一个算法能解决某领域的问题,但是对节点耦合程度比较敏感(要求通讯带宽大/延迟低).
2)改进了算法,降低了对通讯带宽和延迟的要求.这种改进缺省前提是规模扩张导致的性能衰减控制于可接受范围.
我不是专门搞这个的,没法很系统地介绍.
另外说一句,以太网无论带宽多少,优势一般就是便宜,弱点就是延迟大.如果你搭出来的超级计算机就是要跑某几个对延迟不敏感的算法,那么以太网当然很好.可是如果算法对延迟敏感的话,就必须使用低延迟的专用互联方案.
事物总是两面的,如果你的超级计算机采用了低延迟的专用互联方案(一般比较贵)却在运营时候发现接到的计算任务大部分都对互联的延迟不敏感,那你的钱花得就有些冤枉.不过采用高延迟互联方案时候,碰到某些算法就只能干瞪眼了.
我们是2008年配的10GbE。由于经费有限,10GbE只是到刀片机笼和NAS服务器。机笼到刀片还是GbE。内部GbE比较稳定,10GbE网络平均每个月死一次,必须手动重启。速度方面,没有发现10GbE有什么提高,因为其延迟大,对MPI程序应当没有什么太大的作用。
我的理解,supercomputer就是很强的,可以是mainframe也可以是cluster。Top500里面有GbE的Cluster,好像还不少。
mainframe是强调整体性的supercomputer,对现在的技术来说,就是说节点间互联的带宽和延迟两个指标都很高。这个是真正的HPC(High Performance Computing).
cluster是强调throughput的结构,节点之间没有太好的互联。这个一般叫做HTC(Hight Throughput Computing)。现在所谓的云计算,很大一块就是这个玩意。
以上只是我的理解,可能业界也有不同说法。
拿不到第一就改测试标准……金牌数不是第一就比奖牌数。呵呵。我很欣慰。
真的很不错, 特别是延迟已经接近了IB网络. 新的十万兆以太网大有取代IB的趋势. 而且mpi也有多种实现, 具体应用非常重要.
cluster叫法比较流行,无论是同时强调单机效率和网络带宽及延迟的使用,还是所谓highthroughput的使用,好像没有明确的分别,都叫HPC。
倒很想知道中国top10的机器现在的运行状况如何,据说曾经很靠前的机器后来合作单位搞不定,大家各自搬走一块儿自己玩儿了。
是一个grid的项目。
一般说grid网格有两种:一种是比如at home之类的提供一个小的比如屏保程序,志愿者下载了安装提供额外的计算能能力。但一般的任务都比较小。
另外一种是计算中心为基础的。大的计算中心提供grid的接口,用户可以使用这些接口使用计算能力,在各个计算中心之间提供资源共享。比如LCG,EGEE,中国有中国网格。这些在高能物理,设计等等需要大量持续计算能力的比较有用。
据我了解高校里的公共计算,或者大规格的网格基础在国内都不怎么样。
当然保密单位内部的俺不知道。
两者的区别就和黑夜和白天那么大.
mainframe的性能也是最差的,人家卖的是"你不用我的不行".如果你拿它做科学计算,一台100万美元的mainframe实际计算能力应该比上网本强,比1个高端笔记本可能就大有不如了.
天河一号这一类的东西,本质上是nVidia的广告,that is all.