五千年(敝帚自珍)

主题:美国的金融扫荡与中国的工业扫荡 -- 贼不走空

共:💬291 🌺1846 🌵33
分页树展主题 · 全看首页 上页
/ 20
下页 末页
                            • 家园 时间倒退到2002年, ARM不过是芸芸CPU中的一个

                              在卖IP为生的CPU公司中MIPS当时和ARM双雄对峙,如果不是Microsoft的WinCE选了ARM,而WinCE成为手机操作系统,手机的体量又巨大无匹,MIPS当时的支持者包括思科等,谁将胜出是未知数,甚至MIPS胜出的可能性更大。

                              我没有道德洁癖,有机会弄到Moto的DSP物理设计,还是应该弄来学习一下,否则光在EDA上做逻辑设计,永远不会知道一些细节问题。汉芯弄来了,他可耻地方不过是失败了。如果有人指责我道德取向有问题,市场经济,应该买知识产权,我同意,但请他先去谴责一下瓦森纳协定。

                              龙芯的问题不是太高调。你不是具体做这件事的人,如果是的话就不会指责。不高调怎么弄几亿人民币? 不是几万几十万,哪个领导点个头就行了,是几亿几十亿,领导也要压上自己一生的政治前途。这些嘴上英雄还指望你用几千万做出来的东西在市场上击败过千亿美元堆出来的Intel呢,你只要赢不了,你就是骗子。华为海思做了ARM,还集成了LTE,WCDMA,TDSCDMA等Transceiver, 集成度已经超过高通,但网上一样黑嘴云集。从这个角度看,龙芯黑都是SB,你永远无法在嘴上击败SB。对付这些人,只有藐视加忽视, 等他们自己凋亡。

                              通用CPU用MIPS指令集根本不要紧,Linux就支持MIPS啊, 以后基于Linux的操作系统都可以支持啊。龙芯尴尬的地方在于现在这些嘴上英雄要求他们用2亿人民币堆出来的东西打败Intel, 又要求他们打败ARM。要同时面对2个当世顶尖高手,即使全力以赴,任何一个都可能打败不了,何况两个?龙芯发起的不过是注定失败的冲锋。

                              通宝推:远航,李根,小白兔albert,mezhan,nvda,五藤高庆,witten1,
                              • 家园 MIPS64是正确的选择,而ARM则从来就不是一个选择

                                首先需要说的是,龙芯从一开始,目标就是高性能计算+通用CPU。尽管龙芯1是面向嵌入式,但当时就声明,这是起步时的练手。龙芯的定位是由国家的需求决定的,不是市场的风向引导的。至于国家为什么这么需求,没有切身体会的同学完全可以现在试着在digikey等网站上订购PandaBoard/DragonBoard这些看起来平平无奇的ARM开发版,享受一下查阅ECCN和CCC的那份快感就可以亲身了解到。市场风向无常,个人或公司完全可以选择做墙头草,摇来摆去,这个无可厚非。但是如果有人抓住了我没看见的需求,取得了成功,我却只会放嘴炮无端指责,除了凸显我自身的无知和猥琐以外,别无他益。

                                ARM从来就不是做高性能计算的指令集。撇开技术细节,ARM从来就没有进过Top 500。我反复开启搜索引擎,只找到一条新闻,讲的是西班牙从欧盟弄了一笔钱,要做个ARM的集群,想冲击Green 500。这个ARM的集群,看描述就是一个玩具,预期指标也远低于Top 500的门槛,所以只能退而求其次,转向Green 500这个losers的安慰奖。而且所有相关的新闻都是过去将来时,所以现在我还无法确定它是否成功混进了Green 500。反观龙芯,2013年2月交付国家超级计算深圳中心的集群有300 TFlops。虽然找不到这个集群的linpack成绩,但是按当时的Top 500指标,它单独作为一套高性能计算集群肯定能进Top 500,现在也未必会跌出Top 500的名单。更不要说作为整体的曙光6000,当年Top 500的第二名。在龙芯追求的这个方向上,拿ARM来讥笑龙芯或是龙芯选择的MIPS,是很可笑的行为。

                                让我们回到技术细节,谈谈为什么长期以来没有人用ARM做高性能计算这个问题。这是因为,在2002年的时候,在体验过Alpha 21164和R10000的惊艳之后,人类就已经知道,下面这些特征是高性能计算必须的:多路并行,64位, 超标量,分支预测,乱序执行,SIMD指令集扩充。除去容易理解的多路并行和64位,其他特征都是为了在一个时钟周期里运行尽可能多的指令。因为CPU所能运行的最高频率受工艺的限制,有物理上的上限,所以,CPU设计的优劣,更多地反映在一个时钟周期里面能完成多少条指令这个指标上。当时基于MIPS64指令集的R10000,已经具备这些特征,R10000及其衍生版本的成功,也从实践上检验了这一点。MIPS在2005年之后之所以长时间从Top 500的列表上消失,并不是因为技术上的原因,完全是因为其背后的推手SGI因为dotcom泡沫元气大伤,无力继续研发的原因。和MIPS同病相怜的,还有DEC的Alpha和Sun的SPARC。

                                那么,让我们看看在ARM指令集或芯片上实现这些特征的时间:

                                多路并行: 2007年 (Cortax-A9)

                                64位: 2011年 (ARMv8-A)

                                超标量: 2005年 (Cortex-A8)

                                分支预测: 1996年 (ARM8,原始的静态预测)

                                乱序执行: 2007年 (Cortex-A9)

                                SIMD指令集扩充: 2002年 (ARM11)

                                完全满足这些指标的ARM芯片,要等到2014年Cortex-A57以及第三方如Cavium的ThunderX等才出现。反观龙芯,2003年的龙芯2就具备了所有这些特征。落后十年呐!

                                在我写这个回复的今天,高端的ARM芯片一个时钟周期只能做1-2个双精度浮点运算,龙芯能做8个,Intel的Haswell能利用AVX2指令做16个双精度浮点运算。注意高端ARM和龙芯频率接近(1.5GHz左右),而Haswell比他们高1.5-3倍,这是为什么Haswell比龙芯性能高几倍,而龙芯又比ARM高几倍的原因之一。如果讨论他们在有分支的计算代码上的性能表现,恐怕差距还会拉大。这也就是为什么靠码数量,龙芯还能在超级计算领域里面勉强一战,而ARM就只配去做玩具的原因。落后十年呐!

                                回到千年之交的时刻,撇开日本的一系列稀奇古怪的处理器不谈,那个时候高性能计算就IBM的Power,HP的PA-RISC,SGI的MIPS和Sun的SPARC,除此之外,DEC的Alpha相当惊艳,鹤立鸡群。这里面论技术还是SGI, Sun和DEC,朝气蓬勃。x86? 那是教科书里的反面典型,Intel虽然靠码数量也能在Top 500里面冒个尖,但是绝对不成气候,他自己也觉得不光彩,和HP凑到一起研制Itanium。这里面只有MIPS算是开放的,有些第三方的嵌入式CPU设计,其他的指令集都完全受控于一两家大公司。所以MIPS是当时龙芯唯一的选择。

                                如果这时我们拥有一个可以预测未来十年的水晶球,我们会看到什么呢? 暮气沉沉的Power还是那么暮气沉沉,Itanium其兴也勃焉其亡也忽焉,而Alpha、SPARC和MIPS都看似已死,反倒是x86一统天下。ARM则从来没出现在这个水晶球中。对龙芯选择指令集唯一有用的信息是, Alpha和SPARC的设计会被像草纸一样丢在路旁,扔几个小钱钱谁都可以拷一份回家。当然龙芯也能选Alpha或SPARC,前提是你愿意等上十年,还得有这个水晶球。所以MIPS仍然是最佳的选择。顺道说一句,谁都可以拷一份Alpha或SPARC的设计回家,但是要把它玩起来,你得在中国政府和日本政府两条大腿中选一条抱,不抱大腿完全没戏,抱错了比如抱到俄罗斯欧盟等等大腿上也没戏,现实就是这么残酷。

                                另外有些话需要对嘴炮英雄们说一下。十年前你们说龙芯抄MIPS,听起来懂得又多又有正义感,能蒙不少人。那时候我读书少,要是被你们蒙住也不算得冤枉。十年之后你们还说龙芯抄MIPS,就很不明智了,毕竟这十年除了你们原地踏步以外,其他的变了,连我等听众的见识也不一样了。除了龙芯,你见过支持超线程、虚拟化、x86模拟的MIPS? 如果有心,看看"MIPS instruction set"这个维基百科的条目,就可以了解到,十年前,MIPS靠的是SGI,今天,MIPS靠的是龙芯,十年之后? 龙芯就是MIPS,MIPS就是龙芯! 放这等狂言都不需要水晶球,只需要对人类记忆容量的了解。试问除了我这样的考古爱好者,今天还有几个听说过SGI, Origin 2000, R10000和IRIX的人,更不要说SGI的全称和IRIX启动顺序这样的细节问题。十年之后,MIPS和Alpha就是中国的,SPARC就是日本的,如果两国政府还这么有钱有闲有任性的话。如果今天你还在纠结于"龙芯抄MIPS",我只能说,落后十年呐!

                                元宝推荐:铁手, 通宝推:杨微粒,山海马甲,好了,红山,南风,联储主席,springisok,来路,XemK,莫飞,实事求是,NoName,五藤高庆,啊凡,droid,广宽,回旋镖,花大熊,我们的田野,witten1,大胖子,休眠火山,strain2,游泳的鱼,何故悲秋扇,HiJohns,四夕乐,诸法空相,海峰,直到永远,mezhan,镭射,阴霾信仰,李根,脑袋,可梦之,逍遥蜀客,穷贱忙人,支持中文,二手玫瑰,fungi,烤糊的卷子,黄河清,铁手,Guang,mailsina,maoxin321,北纬42度,回归,敲门,破鱼,然后203,膨胀的西红柿,nvda,陈王奋起,日月光,
                                • 家园 你说的那你说的那些高性能芯片特征龙芯都有么?

                                  龙芯结构不是MIPS,只是用了MIPS指令集吧。否则技术上的成就就更低了。

                                  现在国内搞国产CPU的好多家,龙芯的水平是否是最高的我无能判断,但无疑是最高调的(当然也是民用搞得最好的),大概这也是为啥争议最多吧。

                                  国防科大的EPIC体系处理器是兼容安腾2的,一般对外通称为X处理器,

                                  西工大的龙腾CPU分至少两个大系(还有一个很奇怪的编号还没弄清楚是什么),一个是C系,一个是R系,C系C1是兼容x86。R系是兼容IBM/摩托罗拉的PowerPC。

                                  无锡江南计算技术的申威,用Alpha RISC架构。

                                  在我看了神威和X处理器都比龙芯更适合高性能计算。

                                • 家园 在有些人看来,中国是不存在阿琼和LCA的

                                  反正中国做的东西就是好。

                                  龙芯这种东西,前后加起来10多年,产品也有三代了,在刚开始时落后主流的4-5年,现在呢?还是这么多。

                                  中国的有钱人并不少,有眼光的公司也一不少,为什么没有人大规模投资龙芯,从而大幅缩短跟先进水平的差距?

                                  被人骗一时是骗子的错误,被人骗一世是谁的错?

                                • 家园 路过了就来回复一下

                                  楼主对行业有很广泛的理解,但是很多观点还是停留在纸面,感觉不是做研究的?“人类就已经知道”?看看现在的top500,大多数是靠GPU异构把处理量撑上去的,GPU的分支预测,乱序执行?

                                  文中提到了西班牙从欧盟弄了一笔来搞arm的超级计算机,正好本人在这个地方待了一段时间,对这个项目也有些了解,稍微做点介绍。这个项目的展开,主要是现在大型计算机的成本太高,功耗太高,所以欧美学术圈现在在搞一些学术研究寻求用一些低成本低功耗,甚至于off-shelf的处理器来搭建超级计算机。目的其实也就是降低入门门槛,让超级计算机成为一种没有国家支持也能玩的起的“玩具”,大了来说,这是利民的,全方位提高社会质量的一种思路。这个项目(mont-blanc)也得到很多的关注和支持,在SC年会上还斩获过一篇best paper,各种国际顶尖会议上都是大家关注的重点。科技部的万部长还专门来访问参观过。可惜的是,这个项目目前有成烂尾楼的可能,因为项目老大去年上半年被NVIDIA挖走,更多的是人事上的原因,很可惜。

                                  但我相信,基于arm的高性能计算机绝不是没有出路,相反,其低成本低运行成本的特点应该会被业界所重视。

                                  赶着去上班,不多说了。

                                  • 家园 是的,ARM是未来,GPGPU是未来

                                    其他都是浮云。

                                    Intel一片CPU中的核数量这十年没有多大变化,继低能耗输给ARM后,下一步在大数据中要输给GPU了,TOP500中已经有多少都是在使用GPU了。

                                    现在争这些陈年烂谷子的事情还有多少意思,甚至intel眼看着都要走下坡路了,苹果可能在电脑上换掉intel不可能是空穴来风,其对整个个人电脑业的影响将是深远的。

                                    与其考古,不如聊聊HP,IBM的新研发的芯片。

                                  • 家园 让超级计算机成为一种有国家支持才玩的起的“玩具”?
                                • 家园 龙芯不是市场导向的呀

                                  他炒的那么厉害,我还以为是想走商业化路线呢。

                                  • 家园 双管齐下啊,不商业化就没有真正的前途

                                    但是如果绝对商业化,又陷入悖论:公司发展不起来,必须由国家扶持甚至定制。其实就是学100年前的日本,先官后商。把小老虎养大,然后寻找合适的时机放生。

                                  • 家园 市场导向又不是什么高大上的东西

                                    市场不总是客观地反映需求。市场上交易的是交换价值,其目标函数就是赚钱 (profitable)。但是生产的终极目标是使用价值,目标函数是有用 (useful)。由于价值悖论的存在,这二者并非强相关。所以不能总是机械地以市场风向来判定需求。跟涨杀跌,这是很低级的操作。

                                    为了克服单纯市场的弊端,现在主要经济体都是混合经济,用各种方法诱导人们去做有用但是未必短期内赚钱的事情。比如每年投在研发上的钱绝大部分不会短期或直接回本。但是这一部分又早已不是简单的计划经济或指令安排,仍然存在着竞争,只不过不是市场竞争。NSF的钱的发放就是一个典型的例子。要写标书,要评审,要和别人竞争,里面也不乏高调的宣传,政治游说甚至拉帮结派党同伐异。

                                    这里面和市场竞争一样学问很大,要忽悠得来钱,拉得起队伍,拿得出东西,最后还卖得出去。龙芯称不上相当成功,但是绝不算失败,这里面其实有很多原因的。如果一开始龙芯跟风上ARM,现在几乎肯定失败,他同时间国内不是没有申ARM项目的人,现在何在? 你觉得凭买IP核你能从国家拿到那么多经费? 你觉得科研院所里一直ARM团队能长时间稳定存在? 你觉得搞ARM你下游有厂商愿意帮你做应用?

                                    而且龙芯根本就没炒作。很少听说龙芯公司自己搞过什么宣传,他自己的宣传就是在学校里面搞搞讲座之类的。这个和kickstarter上成天要beat这个beat那个的CPU研发团队比起来,龙芯的宣传连幼稚都算不上,简直是空白啊。龙芯在网上这么火其实就是一堆不相关的人把它当成一个符号成天黑来黑去而已。

                                • 家园 SGI, ALPHA,MIPS都听说过啊

                                  你说ALPHA是CPU,用这个CPU的机器自然叫ALPHA小型机喽,太快了,尤其是做计算的时候。

                                  曾经发神经,把C写得程序分别编译放到Alpha小型机,PC服务器还有IBM 的服务器(忘了,据说是深蓝集群中的机型),Alpha两分钟,IBM的机器跑了两个小时,PC那个第二天还在跑,算了,直接关了。

                                  美军的预警机上应该是两台Alpha 8000军用版,我用过民用版,映像深刻。

                                • 家园 你说的其实都不是问题

                                  你说的,还有骂龙芯的,说ARM和MIPS的优缺点的,所有正方反方争的,其实现在都不是问题了,早在十年前就都不算个事了。

                                  其实搞高性能运算,和哪个指令集根本就没什么关系。RISC和CISC什么的,那都是90年代前的技术争执了。超标量,乱序,流水线什么的,基本十年前也过时出局了,都是业余爱好者才最关心的问题。

                                  其实搞好CPU就一个秘诀,钱多,多练。ARM一般赶不上x86的原因很简单,Intel人家投入资源比你多,同样的思想,你没钱没人,得用自动工具瞎弄一下搞出来就算了,人家Intel是多少年多少人多少数据支持下手工优化出来的,那性能当然差远了。从这个角度讲,龙芯当然有它的价值。不过本猫是一直认为摩尔定律只有不到十年寿命的情况下,你基本搞什么芯片都是白搭,没什么实际意义。以后即使有突破,本猫认为也肯定不是现在这个路子。这就像模拟电视,再牛也比不过数字高清一样。

                                  通宝推:益者三友,
                                  • 家园 摩尔定律的终结才是近期Intel垄断优势加大的原因

                                    事实上,摩尔定律已经终结了,这个时间点在2005年,而不是你说的十年以后。从2005年至今,单核的晶体管数、频率、性能、功耗等指标都没有指数变化,和2005年之前相比出现明显的拐点。某些指标甚至不升反降。与此同时,一块CPU对应的核的数量却近乎指数增长,高性能计算领域也使用更多的CPU,因此纸上的计算能力,也就是峰值计算能力仍然维持摩尔定律的假象,但实际计算能力早已偏离摩尔定律。

                                    这是因为,当峰值计算能力相同时,所需要的核的数量等于峰值计算能力/单核峰值计算能力,而核的数量越多,对应的并行效率就越低,因此单核峰值计算能力越高,其并行计算能力越高。单核效率也与此相似。Intel单核性能最高。因此,在Top 500中,基于Intel CPU的并行效率普遍比AMD CPU的高,也肯定比龙芯高,而GPU由于无法有效处理分支运算,所以实际效率极其低下,因而只能得到有用有术也有限的评价。

                                    那么,这个变化的短期结果是什么,就是Intel垄断优势的加大。为了得到和Intel相似的理论性能,AMD被迫在单CPU中使用更多的核,但是二者的实际性能差距越来越大。尽管AMD不停地出示有利自身的证据,但市场不会被蒙蔽。Intel的优势越来越大,而Intel/AMD和潜在的第三者之间的差距也越来越大,这是因为核数的增长使得单核上的差距被放大。

                                    其实你看,摩尔定律终结了,但是世界末日并没有来临,相反,我们迎来了智能手机的爆发。就在这5年之内,ARM和它的小弟们不停地加入我说的那些,超标量,乱序什么乱七八糟的,以期在世界末日之后,在天堂里站个更好的位置。难道Apple吃饱了撑着从1176JZ(F)-S换到Cortex-A8再到Cortex-A9再到自行设计Swift和Cyclone?

                                    通宝推:林风清逸,墨虎,rentg,愚弟,
分页树展主题 · 全看首页 上页
/ 20
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河