主题:美国的金融扫荡与中国的工业扫荡 -- 贼不走空
50% below its ALL competitors in the world and still earned high profit margin. Low labor cost and cheap steel price are two most important weapons. No competitors can match this kind of cost advantages.
Those two advantages are slowly eroded over years, esp., after the rapid appreciation of RMB in the last 10 years.
Under previous chairman's leadership, the firm built up a solid engineering team. But without cost advantage, its market share could evaporate fast.
某些机械说穿了,跟INTEGRATION capability 屁关系都没有,就是组装斗成本。BTW, its assembly center in Jiang Ying also provides a very important cost advantage: low transport cost. Just visit its assembly site and you will understand what I mean.
首先需要说的是,龙芯从一开始,目标就是高性能计算+通用CPU。尽管龙芯1是面向嵌入式,但当时就声明,这是起步时的练手。龙芯的定位是由国家的需求决定的,不是市场的风向引导的。至于国家为什么这么需求,没有切身体会的同学完全可以现在试着在digikey等网站上订购PandaBoard/DragonBoard这些看起来平平无奇的ARM开发版,享受一下查阅ECCN和CCC的那份快感就可以亲身了解到。市场风向无常,个人或公司完全可以选择做墙头草,摇来摆去,这个无可厚非。但是如果有人抓住了我没看见的需求,取得了成功,我却只会放嘴炮无端指责,除了凸显我自身的无知和猥琐以外,别无他益。
ARM从来就不是做高性能计算的指令集。撇开技术细节,ARM从来就没有进过Top 500。我反复开启搜索引擎,只找到一条新闻,讲的是西班牙从欧盟弄了一笔钱,要做个ARM的集群,想冲击Green 500。这个ARM的集群,看描述就是一个玩具,预期指标也远低于Top 500的门槛,所以只能退而求其次,转向Green 500这个losers的安慰奖。而且所有相关的新闻都是过去将来时,所以现在我还无法确定它是否成功混进了Green 500。反观龙芯,2013年2月交付国家超级计算深圳中心的集群有300 TFlops。虽然找不到这个集群的linpack成绩,但是按当时的Top 500指标,它单独作为一套高性能计算集群肯定能进Top 500,现在也未必会跌出Top 500的名单。更不要说作为整体的曙光6000,当年Top 500的第二名。在龙芯追求的这个方向上,拿ARM来讥笑龙芯或是龙芯选择的MIPS,是很可笑的行为。
让我们回到技术细节,谈谈为什么长期以来没有人用ARM做高性能计算这个问题。这是因为,在2002年的时候,在体验过Alpha 21164和R10000的惊艳之后,人类就已经知道,下面这些特征是高性能计算必须的:多路并行,64位, 超标量,分支预测,乱序执行,SIMD指令集扩充。除去容易理解的多路并行和64位,其他特征都是为了在一个时钟周期里运行尽可能多的指令。因为CPU所能运行的最高频率受工艺的限制,有物理上的上限,所以,CPU设计的优劣,更多地反映在一个时钟周期里面能完成多少条指令这个指标上。当时基于MIPS64指令集的R10000,已经具备这些特征,R10000及其衍生版本的成功,也从实践上检验了这一点。MIPS在2005年之后之所以长时间从Top 500的列表上消失,并不是因为技术上的原因,完全是因为其背后的推手SGI因为dotcom泡沫元气大伤,无力继续研发的原因。和MIPS同病相怜的,还有DEC的Alpha和Sun的SPARC。
那么,让我们看看在ARM指令集或芯片上实现这些特征的时间:
多路并行: 2007年 (Cortax-A9)
64位: 2011年 (ARMv8-A)
超标量: 2005年 (Cortex-A8)
分支预测: 1996年 (ARM8,原始的静态预测)
乱序执行: 2007年 (Cortex-A9)
SIMD指令集扩充: 2002年 (ARM11)
完全满足这些指标的ARM芯片,要等到2014年Cortex-A57以及第三方如Cavium的ThunderX等才出现。反观龙芯,2003年的龙芯2就具备了所有这些特征。落后十年呐!
在我写这个回复的今天,高端的ARM芯片一个时钟周期只能做1-2个双精度浮点运算,龙芯能做8个,Intel的Haswell能利用AVX2指令做16个双精度浮点运算。注意高端ARM和龙芯频率接近(1.5GHz左右),而Haswell比他们高1.5-3倍,这是为什么Haswell比龙芯性能高几倍,而龙芯又比ARM高几倍的原因之一。如果讨论他们在有分支的计算代码上的性能表现,恐怕差距还会拉大。这也就是为什么靠码数量,龙芯还能在超级计算领域里面勉强一战,而ARM就只配去做玩具的原因。落后十年呐!
回到千年之交的时刻,撇开日本的一系列稀奇古怪的处理器不谈,那个时候高性能计算就IBM的Power,HP的PA-RISC,SGI的MIPS和Sun的SPARC,除此之外,DEC的Alpha相当惊艳,鹤立鸡群。这里面论技术还是SGI, Sun和DEC,朝气蓬勃。x86? 那是教科书里的反面典型,Intel虽然靠码数量也能在Top 500里面冒个尖,但是绝对不成气候,他自己也觉得不光彩,和HP凑到一起研制Itanium。这里面只有MIPS算是开放的,有些第三方的嵌入式CPU设计,其他的指令集都完全受控于一两家大公司。所以MIPS是当时龙芯唯一的选择。
如果这时我们拥有一个可以预测未来十年的水晶球,我们会看到什么呢? 暮气沉沉的Power还是那么暮气沉沉,Itanium其兴也勃焉其亡也忽焉,而Alpha、SPARC和MIPS都看似已死,反倒是x86一统天下。ARM则从来没出现在这个水晶球中。对龙芯选择指令集唯一有用的信息是, Alpha和SPARC的设计会被像草纸一样丢在路旁,扔几个小钱钱谁都可以拷一份回家。当然龙芯也能选Alpha或SPARC,前提是你愿意等上十年,还得有这个水晶球。所以MIPS仍然是最佳的选择。顺道说一句,谁都可以拷一份Alpha或SPARC的设计回家,但是要把它玩起来,你得在中国政府和日本政府两条大腿中选一条抱,不抱大腿完全没戏,抱错了比如抱到俄罗斯欧盟等等大腿上也没戏,现实就是这么残酷。
另外有些话需要对嘴炮英雄们说一下。十年前你们说龙芯抄MIPS,听起来懂得又多又有正义感,能蒙不少人。那时候我读书少,要是被你们蒙住也不算得冤枉。十年之后你们还说龙芯抄MIPS,就很不明智了,毕竟这十年除了你们原地踏步以外,其他的变了,连我等听众的见识也不一样了。除了龙芯,你见过支持超线程、虚拟化、x86模拟的MIPS? 如果有心,看看"MIPS instruction set"这个维基百科的条目,就可以了解到,十年前,MIPS靠的是SGI,今天,MIPS靠的是龙芯,十年之后? 龙芯就是MIPS,MIPS就是龙芯! 放这等狂言都不需要水晶球,只需要对人类记忆容量的了解。试问除了我这样的考古爱好者,今天还有几个听说过SGI, Origin 2000, R10000和IRIX的人,更不要说SGI的全称和IRIX启动顺序这样的细节问题。十年之后,MIPS和Alpha就是中国的,SPARC就是日本的,如果两国政府还这么有钱有闲有任性的话。如果今天你还在纠结于"龙芯抄MIPS",我只能说,落后十年呐!
前面说过,因为职业关系所以我基本上不会看上什么东西马上被忽悠的热血沸腾。分析的路子不一样,自己得出的结果就完全不同。
首先,他最近的获奖是“中央国家机关2000-2001年度杰出青年”
其次,他最近的论文在09年
另外,他最近的研究项目是“四核龙芯通用CPU研制,国家863重点项目,负责人,2008.1-2010.12“
从已经公开的这些,很容易就能知道他在体制内已经十多年没有冒尖,另外在学术圈内也消失了5年,同时在研究项目上也有4年的空窗。当然,你要是说他开始秘密工作啥的我也没话说,毕竟这种东西水太深掉进去就消失了。
在没有更多信息的情况下,你觉得他是沉底了还是因故消失了?更何况还有这句:
2002年9月份,龙芯投片成功,其功能相当于奔腾II,这在我国计算机发展史上具有里程碑式的意义,是我国研制自主知识产权的高性能通用CPU的典范之作。
02年造出相当于奔2的芯片,那之后10多年,造出了相当于奔3的芯片么?
十几年过去了,他到底拿出什么真金白银的成果了么?要求不高,如果真的能几年甚至十年一个台阶往上追,估计国家也不傻不会断了支持。
不看广告看疗效
你说的,还有骂龙芯的,说ARM和MIPS的优缺点的,所有正方反方争的,其实现在都不是问题了,早在十年前就都不算个事了。
其实搞高性能运算,和哪个指令集根本就没什么关系。RISC和CISC什么的,那都是90年代前的技术争执了。超标量,乱序,流水线什么的,基本十年前也过时出局了,都是业余爱好者才最关心的问题。
其实搞好CPU就一个秘诀,钱多,多练。ARM一般赶不上x86的原因很简单,Intel人家投入资源比你多,同样的思想,你没钱没人,得用自动工具瞎弄一下搞出来就算了,人家Intel是多少年多少人多少数据支持下手工优化出来的,那性能当然差远了。从这个角度讲,龙芯当然有它的价值。不过本猫是一直认为摩尔定律只有不到十年寿命的情况下,你基本搞什么芯片都是白搭,没什么实际意义。以后即使有突破,本猫认为也肯定不是现在这个路子。这就像模拟电视,再牛也比不过数字高清一样。
事实上,摩尔定律已经终结了,这个时间点在2005年,而不是你说的十年以后。从2005年至今,单核的晶体管数、频率、性能、功耗等指标都没有指数变化,和2005年之前相比出现明显的拐点。某些指标甚至不升反降。与此同时,一块CPU对应的核的数量却近乎指数增长,高性能计算领域也使用更多的CPU,因此纸上的计算能力,也就是峰值计算能力仍然维持摩尔定律的假象,但实际计算能力早已偏离摩尔定律。
这是因为,当峰值计算能力相同时,所需要的核的数量等于峰值计算能力/单核峰值计算能力,而核的数量越多,对应的并行效率就越低,因此单核峰值计算能力越高,其并行计算能力越高。单核效率也与此相似。Intel单核性能最高。因此,在Top 500中,基于Intel CPU的并行效率普遍比AMD CPU的高,也肯定比龙芯高,而GPU由于无法有效处理分支运算,所以实际效率极其低下,因而只能得到有用有术也有限的评价。
那么,这个变化的短期结果是什么,就是Intel垄断优势的加大。为了得到和Intel相似的理论性能,AMD被迫在单CPU中使用更多的核,但是二者的实际性能差距越来越大。尽管AMD不停地出示有利自身的证据,但市场不会被蒙蔽。Intel的优势越来越大,而Intel/AMD和潜在的第三者之间的差距也越来越大,这是因为核数的增长使得单核上的差距被放大。
其实你看,摩尔定律终结了,但是世界末日并没有来临,相反,我们迎来了智能手机的爆发。就在这5年之内,ARM和它的小弟们不停地加入我说的那些,超标量,乱序什么乱七八糟的,以期在世界末日之后,在天堂里站个更好的位置。难道Apple吃饱了撑着从1176JZ(F)-S换到Cortex-A8再到Cortex-A9再到自行设计Swift和Cyclone?
你说ALPHA是CPU,用这个CPU的机器自然叫ALPHA小型机喽,太快了,尤其是做计算的时候。
曾经发神经,把C写得程序分别编译放到Alpha小型机,PC服务器还有IBM 的服务器(忘了,据说是深蓝集群中的机型),Alpha两分钟,IBM的机器跑了两个小时,PC那个第二天还在跑,算了,直接关了。
美军的预警机上应该是两台Alpha 8000军用版,我用过民用版,映像深刻。
第一,你说的那个不叫GPU,而是类似协作处理器。那个没有什么有效处理分支运算的问题,那个是算法的问题,更重要的是整个解决方案的设计。指望协助处理器来解决这个问题,那是不切合实际的,协助处理器只是工具。
第二,Intel单核能力高,很大程度上是有什么条件打什么仗,不要引申太多了。业余爱好者的问题往往就出在引申上。Intel有性能最高的半导体,它的客户很多单核软件开支是五位数甚至是六七位数,就是最廉价的个人机其软件价格也是手机的一个数量级以上,那它该搞什么不是很明显吗?AMD用多核?在行内人看来这是多简单的一件事啊。AMD那个不叫多核,一开始,也就是十几年前,叫clustered design,CMT,是DEC Alpha那帮人搞的,结果Alpha垮了,CMT也基本被认为是邪说了,没想到十几年后AMD给捡起来了。不过这圈子也很小,大批人都是DEC混过去Intel,Intel混过去AMD。如果说这馊主意是DEC老人提出来的,本猫也丝毫不奇怪。
第三,至于什么手机芯片性能爆发,多少年前就有killer micro的说法了,本猫就只当历史大戏重演。小型机取代大型机成为市场焦点,PC取代小型机,到现在手机成为焦点,在IT老人看来是非常正常的。至于苹果搞什么CPU,本猫以前说过很多次了,ARM的优势是开放,可以自己拿去瞎搞。苹果这样的公司自己要搞什么,当然是软硬通盘整合。有钱,任性不行啊?这个属于公司战略,和技术没有半点关系。
不少科学计算的核心就是玩命循环,没啥分支,所以协处理器的概念还是不错滴。
但关键是需要大量重写代码,而且不够快,如果是10倍的提升重写代码还值得,现阶段就是2-3倍的提升,用原来的代码+多买几台机器就能做到,用协处理器基本属于吃饱了撑的。
现阶段协处理器的市场在于Top500排名,采用大量协处理器是唯一能快速提升排名的方法,中外都这么干,但这么出来的机器就是浪费,计算速度只在纸面上,实际中根本用不了。。。
then we should see Vietnam, India or Indonesia etc offering similar product to compete with it.
These countries all have long coastal line, even lower labor costs. They can also source cheap iron ore from the international market.
But we didn't see this happen, or at least, we didn't see a significant market share was taken by them, right?
The RMB now is facing huge pressure to be depreciated.
Let's wait and see....
90年代的全球排名是:德国大象,德国施维英,意大利CIFA。中国当时都上不了榜,干脆就没这产品,直到93年中联才搞出来了。
如今的排名是:三一,中联,徐工
那些前老大们哪去了呢:中联抢先收了CIFA,大象在福岛跟三一打对台戏打出感情,转过年来就委身于三一,施维英一看老三和老大都沦落风尘了,只好求徐工包养。中国企业扫荡得极为彻底。
当然了,俺就知道会有人说,发动机不是中国滴!!!
他炒的那么厉害,我还以为是想走商业化路线呢。
Intel的性能高,其实应该说是性价比高,这个是和市场长期互动的结果,是市场选择和适应市场的相互作用,发展到现在,在他本身的客户圈内,已经没有比他性价比更高的了。而ARM除了开放优势外,其最初不支持乱序并行等费电的指令也有很大关系,所以被选中也是有其内因。
其实本楼的陈王兄及其他人已经直接间接的回答了你的问题,谦虚点多向行内人学习没坏处。纯做一个喷子有意思吗?