主题:超级计算机世界排名今年出现大变化 -- 彼得格勒
知乎上的一个行家对太湖之星的评论很有见地
比较显著的一个指标是这个CPU的内存带宽/浮点比率达到令人难以置信的1/22.4=0.045 Byte/FLOP。作为对比(数据来源Yokota,J Algo Comp Tech, 7,3,2013):
INTEL Xeon E5 2690: 0.211
AMD Opteron 6284 SE: 0.235
NVIDIA Fermi GF110: 0.266
IBM PowerPC A2(BG/Q):0.208
Fujitsu Sparc64(FX10):0.359
相比较而言sw26010的内存带宽太小,很多操作都会卡在内存上。实际应用上,优化好的FMM或者DGEMM大概需要0.2,使用特殊向量指令还可以更低,3D FFT大概需要0.6~0.9, stencil大概2~3,spmv大概5。在x86上FMM/DGEMM是compute bound,后面几个都是memory bound,而在sw26010上这些操作几乎全都是memory bound。
所以在Graph500里面太湖之光落后内存带宽有很大优势的Sparc64 K是很正常的结果。
这是设计取向问题。
作为一个HPC用户,sw26010这样的cpu很难优化,内存带宽小是一方面。另一方面计算核有“The Computer Processing Element (CPE) is composed of an 8x8 mesh of 64-bit RISC cores, supporting only user mode, with a 256-bit vector instructions, 16 KB L1 instruction cache and 64 KB Scratch Pad Memory (SPM).”只有很小的L1指令缓存,要靠手工维护scratch pad memory,这个内存结构有点像Fermi架构之前的nvidia GPU,nbody这种简单暴力的写起来比较适合,想做点复杂的就很麻烦。
从太湖之光官网的软件环境(国家超级计算无锡中心)里也可以看出,目前科学计算软件里大量的都是比较适合这类CPU结构跑的nbody类型分子模拟程序,比如NAMD,LAMMPS,Amber,GROMACS之类。
另一方面在缺乏Petsc/trilinos这样的并行计算基础库的条件下给太湖之光写代码是
成本非常高的事情,一般大学里只有极少数实力强大的组有这个条件(经费、时间、人力)从底层开始写一套大程序,这也制约了这一套系统的潜在用户数量。用户数太少的话软件基础设施永远停留在比较原始的阶段。
- 相关回复 上下关系8
压缩 2 层
🙂带有节能设计而已,依然是耗电大户。 4 粗茶淡饭 字321 2018-06-12 07:46:01
🙂不过目前看来中国E级机的技术不是特别成熟 5 彼得格勒 字1317 2018-06-11 09:31:36
🙂大师这么相信网上的消息啊 13 北纬42度 字417 2018-06-11 14:58:49
🙂你从网上得到的消息都是扭曲的
🙂呵呵,知乎上面见闻性质的常识正确性偏高;涉及技术问题。 1 放牛郎 字171 2018-11-16 02:20:54
🙂错得都没边了 24 北纬42度 字483 2018-06-13 19:01:44
🙂您说对了 1 赵美成 字286 2018-06-11 21:17:27
🙂你这就是不懂瞎说 4 北纬42度 字108 2018-06-13 19:05:29