五千年(敝帚自珍)

主题:【原创】闲话Google集群 [1] 引子 -- 邓侃

共:💬33 🌺147
分页树展主题 · 全看首页 上页
/ 3
下页 末页
  • 家园 【原创】闲话Google集群 [1] 引子

    [1] 引子 链接出处

    [2] 存在的理由 链接出处

    [1] 引子

    奥运会是一个快乐的大party,party快结束了,我们也该收收心,补补功课了。补什么功课呢?

    7月份以来,新员工陆续上岗,领导指示,"塑造锐意进取,开拓创新的企业文化"。塑造企业文化的任务不太好办。组织学习七个好习惯之类的书籍,大家觉得有说教甚至洗脑的嫌疑。组织郊游,大家事后惦记着的,是下一次什么时候郊游,去哪里,但是很少有人想着如何改进工作。

    最近几个月,公司的用户数量大涨,这是好事。但是欣喜之余,后台服务器的吞吐量和稳定性面临严峻考验。总部领导垂询,有没有办法强化后台服务器集群,力争趋近5个9的指标?所谓5个9,就是绝大多数(99.99999%)的时间内,服务器集群稳定工作。即便5个9的指标一时达不到,那么能达到2个9也比现状强。

    和大家商量商量,干脆,把两个任务合而为一,读论文吧。

    读论文的目的有二,1. 扩大视野,强化专业知识,2. 唤起大家对专业对工作的兴趣。

    认识一位美女的妈妈。女儿如花,做妈妈的很得意,但是也有烦恼。漂亮女儿的学习不好,先学会计,觉得繁琐,后转学护士,又记不住大量的医学名词。于是让我找美女谈谈。美女说,"我对会计和护士没兴趣,没兴趣就读不好"。问,"哪你对什么事情感兴趣呢?" 答,"和人打交道的事情。"

    我的看法,兴趣和投入是密切相关的。投入越大,相关知识和技能就越强。能力越强,就越有自信。越有自信,就越有兴趣。

    想成为世界顶级选手,的确需要天赋。但是入门并不需要强调天赋,主要还是多花时间。但是正襟危坐,悬梁刺股,是不是好方法,值得商榷。美女的问题是,有没有办法把学习,变得像谈恋爱那样有趣?这的确是一个值得思考的问题。

    和一位初三的小同学去外地旅游。路上问小同学三个问题,1. "平均而言,坐火车的旅客有钱,还是乘飞机的旅客有钱?" 2. "火车站里的小偷多,还是飞机场里的小偷多?" 3. "为什么多数小偷不去飞机场行窃,而是选择火车站?" 一路上你问我答,辩论热烈。

    最后,小同学问,"我们讨论这些问题有什么意义?为什么不谈谈数理化?" 思辨的快乐,无所不在。小同学言下之意,如果能像辩论小偷的经济模式那样,辩论数理化问题,功课就不是负担而是快乐了。

    刘翔退出比赛,网上热议。1. 比赛是娱乐还是提振国家尊严?2. 留得青山在不怕没柴烧,还是明知其不可为而为之,哪一个是真英雄?3. 国家集训式的计划体制,还是商业推动,哪一个体制更适合中国体育国情?有了辩论,大家就有兴趣,讨论也就更深入。

    为什么讨论技术问题,很少出现热烈的辩论?不是问题本身无趣,而是进入壁垒比较高。要参与辩论,首先必须明白论战双方在讲什么。进入壁垒高,参与者就少。人数少了,自然就不热烈。

    如何挑起技术辩论?或许横向比较是一个招儿。集群技术有几个学派?这些学派的差异在哪里?为什么Google不沿用现成的技术,而是另起炉灶?都说Google的集群做的好,是不是其它集群技术就没有前途?

    有记者问李开复,Google的技术优势在哪里?开复答,1. PageRanking的排序算法,2. 超大规模集群。 Google的集群,2000年初的时候由一千多台服务器组成。到了2006年初,根据Google给Dell的订单推算,估计是40万到50万台服务器的规模。两年多过去了,目前Google的集群有多大?有论者猜测,估计已经超过1千万台机器了,这个猜测是否准确,待考。

    PageRanking的算法相对比较容易跟风,但是想效仿Google的集群就不是那么容易了。Google的集群里到底藏了什么药?我们这个系列就谈谈这个问题。之所以是闲聊,1. 节奏和篇幅比较随意,2. 强调横向比较,背景解释比较多, 3. 掺杂个人观点(当然会明确标注),欢迎大家拍砖。

    关键词(Tags): #Google#集群#互联网#操作系统#网络元宝推荐:铁手,老马丁,

    本帖一共被 7 帖 引用 (帖内工具实现)
    • 家园 期待下文

      以前写论文的时候还读过一篇关于Google集群的论文,再见此话题还能回味起那段痛苦的日子。

    • 家园 数字不够准确

      google只用很少的dell服务器,所以从那里不可能估计出google的服务器数目。

      每年全球生产的服务器在7M左右。如果google有10M服务器,那估计可占全球服务器的20%多,好像不大现实。

      用CPU数目来估计比较合理,因为每个服务器有可能有2/4/8/16核。

    • 家园 google的故事应该也很有趣

      坐等下文

    • 家园 拜托不要太随便了

      很好的话题,很有兴趣的点进来,不过看完后感觉随便了点。

      有些关键内容讲的不够精确,诸如5个9,小数点后5个9,现在谁能做到?

      电力供应能做到5个9,那也是小数点后3个,加前面2个的一起算的。

      小数点后2个9的指标对于应用类的网站来说,已经是可望不可及的目标了,这意味着全年停机只能少于53分钟,昨天晚上我们做维护,一个在ebay工作过的工程师穿了件Ebay达到的最高可用率的T恤,数字很醒目,99.961%,这可是ebay的历史最高了。

      对于存储的那段论述,名词堆砌是不解决问题的,关键是要指出重点。

      BTW:据称,google的集群是自己生产的服务器,DELL的服务器的耗电和散热指标都不是太好的。

      这个话题是个非常好的话题,希望能够在这个帖子中看到更准确,更专业的分享。

      • 家园 更专业的分享

        回复见这里。:)

        链接出处

      • 家园 传统企业电话交换机(TDM PBX)能做到99.999%

        一年停机5.3分钟,呵呵,虽然我知道传统电话网络很可靠,第一次听到这个数字还是震惊。

      • 家园 楼主即然说过是“闲聊”还是随意比较好

        不过,scalability尤其是数据(库)的scalability现在是整个IT界的最热点,当然iPhone除外,呵呵。

        看得出来,这种标题一打,眼球马上就能吸引来,堪比眼下铺天盖地到处狂炒的cloud了。比起互联网规模的SNS面临的挑战,传统的企业内的那些IT话题,SOA了,n-tier了,数据结构了等马上都是小儿科了,企业内的科题现在基本沦为老印们外包混犯吃的家伙了,没太多油水可榨,因为从技术角度讲已经非常成熟了,也就只能在cost上动动脑筋了。一个常见的例子是,在fortune 500做架构师的到了那些大型SNS的startup那里,根本没有做架构师的资格,无他,需要解决的问题根本不在一个数量级上,因此从理论基础到工具方法全部需要换个角度,经验资历自然也就做不得数了。

        自然,在没有成熟的理论实践指导下,这个领域内摸着石头过河的方式还是很流行,另外就是多方打听那些有一定成功的经验的系统的密诀,因此如highscalability.com这样的包打听blog就很引人注目。另外一个特点就是这个方向上的科研论文也是很热门,看来象牙塔里面也并不是两耳不闻天下事,对外面IT应用上的热点难题盯得很紧,至少互联发展起来这十几年有关的论文层出不穷,搜索了,界面了,数据了,网络了等方向上格外多。

        因此,即然是个很前沿的话题,楼主这样随意的态度其实更好些,读者也少一些功利心,不要指望能发现什么武林密诀,作者自然就少些压力,重要的是头脑碰撞,当做一个共同学习的机会也很好。

        • 家园 架构设计前沿

          做系统架构,如果想做出一点名堂,一个投机取巧的途径是,要么做大,大到像Google集群那样的规模。要么做小,小到像iPhone那样,麻雀虽小,不仅五脏俱全,而且个个玲珑剔透。中间道路,虽然容易走,但是很难做出精彩。

          前几天忙着搬家,耽搁了,这个星期加加油,着手写Google File System有关的架构。

          所谓系统架构,听起来很玄,其实入门并不难。无非是机器布局,数据流控制流,同步,数据恢复(recovery),安全,等等。借着谈GFS,我们先把这几个要素过一遍。以后谈Bigtable,或者其它架构设计的时候,再炒一遍。

          同样的实质,换着题目炒几遍,就熟悉了。熟悉了,就会出现有深度的辩论,乐趣就来了。


          本帖一共被 1 帖 引用 (帖内工具实现)
        • 家园 SNS?

          是Social Network?

          • SNS?
            家园 SNS=Social Network Services

            SNS=Social Network Services = Seek & Sex

    • 家园 花教育理念!

      说得很好啊。

    • 家园 好文,继续期待
    • 家园 感觉最好的Search Engine 应该就是真正的AI

      google的技术发展有生物神经网络发展的痕迹.

分页树展主题 · 全看首页 上页
/ 3
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河