五千年(敝帚自珍)

主题:【原创】百度和Google,谁更强大,为什么? -- 邓侃

共:💬168 🌺346 🌵1
分页树展主题 · 全看首页 上页
/ 12
下页 末页
  • 家园 【原创】百度和Google,谁更强大,为什么?

    判断一个搜索引擎的质量的标准是什么?是准确性(Precision),还是完备性(Recall)?都对,但是都不完整。其实,搜索引擎作为一个产品,它的质量好坏归根结底还是看顾客对它的接受程度,也就是市场占有率,而市场占有率是通过流量(Traffic)来评估的。

    有人问,假如我们提高了Precision和Recall,是不是就可以赢得更多流量呢?下面的表格是2004年5个搜索引擎的性能对比,Google不比 Alta Vista好多少,比HotBot稍差,比Scirus差得就更远了。但是同期Google在全球搜索引擎的市场占有率是45%以上,而表中其它搜索引擎的市场占有率没有哪一家超过5%。所以,结论是,Precision和Recall,与搜索引擎的市场占有率没有必然联系。

    Table 1. 2004年5个搜索引擎的Precision和Recall比较

    (Courtesy of Shafi & Rather )

    Alta Vista, Google, HotBot, Scirus, Bioweb

    Precision 0.27 0.29 0.28 0.57 0.14

    Recall 0.18 0.20 0.29 0.32 0.05

    有人争辩说,Precision和Recall只关心被搜索引擎找到的结果中,正确的结果占的百分比,以及被找到的正确结果,占所有正确的结果的百分比,这两个性能指标并不能准确反映用户的满意程度。其实,所谓正确的结果中,也有更正确和不那么正确之分,所以更准确地反映用户满意程度的指标是结果的排序。Google凭借PageRank技术,给找到的结果打分并排序。而PageRank的打分,看来比较符合用户的期望,所以Google成功了。

    我的偏见是,把扩大搜索引擎的流量,完全寄希望于提高引擎本身的技术性能,这个思路是危险的。比较百度和Google,在技术性能方面,没有强有力的证据表明百度比Google强多少。假设技术性能决定流量,那么百度最多只能和Google平分市场份额。但是事实上,在中国搜索引擎市场,百度占了市场份额的70%以上,远远把Google抛在后面。因此百度的领先,反证了技术决定论的不成立。

    另外一个原因是,当今世界技术进步的速度很快,即便是PageRank这样的技术,很快就被很多公司效仿。极端一点讲,搜索引擎方面似乎已经不存在什么技术是哪家公司的独步秘笈。搜索引擎技术,已经成为大路货(commodity),你能做,我也能做。

    百度的成功,我看主要因素有两条。一是闭循环系统,二是人力因素。

    在说明闭循环系统之前,先看看什么是开循环。Google基本是一个开循环,用户通过Google查找信息,Google返回若干结果,每个结果是一个指向其它网站的链接。用户点击链接,就离开Google,访问其它网站了。但是百度有意成为一个闭循环系统,用户在百度查找信息,百度多半会返回百度知道,百度百科,百度贴吧等等百度其它产品的内容。而这些其它百度的产品,多半会附带搜索服务,而所用的搜索引擎,无一例外统统用的是百度自己的搜索引擎。换句话说,百度的搜索引擎把用户流量带给百度的其它产品,而其它产品又把流量反过来输送回百度搜索引擎。当然,如果百度知道等等其它产品的质量很差,用户也不一定会听从百度引擎的疏导,但是目前看起来百度知道,百度百科,百度贴吧等等产品相当受用户欢迎。即使在Google查找信息,也经常被引导到百度知道,百度百科这些产品上来。

    百度第二个成功的诀窍是人力因素。提到人力因素,或许会有人想到Social search engine这样的技术,它是依靠用户打分以及跟踪用户使用搜索引擎的行为,来提高搜索引擎返回结果的质量。百度也依靠人力,但是目的不是提高搜索质量,而是从事两种事情。一,编辑整理内容。二,生成新内容。下面这张表,分析了百度各个产品吸引的用户流量。除了搜索引擎以外,其它高流量产品都有人力参与的成份。譬如图片,mp3,知道,音乐掌门人,视频,新闻和百科,都有编辑整理的痕迹。而图片,贴吧,知道,音乐掌门人,视频,百科等等,内容本身也是由百度用户自己生成的。用专业术语讲,就是“用户生成的内容(User Generated Content)”。百度要维持一支相当规模的内容编辑队伍,这一点恐怕是其它搜索引擎公司所不具备的。百度花了大力气,像Wikipedia那样发动群众生成内容,这一点也是其它搜索引擎公司所不具备的。

    Table 2. Baidu traffic breakdown

    (Courtesy of Alexa.com)

    搜索, 图片, 贴吧, mp3, 知道, Hi, 掌门人, 视频, 新闻, 百科

    流量 49% 12% 12% 6% 6% 3% 3% 2% 1% 1%

    对比Google的图片和百度的图片。Google的界面仅仅是一个简单的搜索输入框,而百度不仅有输入框,而且还有一些目录,包括爆笑趣图,精品推荐,美女明星,卡通动漫,精美壁纸,电影电视,风景名胜。每个目录下面是由人力收集和编辑的图片。做法不复杂,但是却占了百度流量的12%,可见深受用户欢迎。对比一下Google.cn,它的图片只占总流量的6%。可见有没有编辑,效果大不一样。

    Table 3. Google.cn traffic breakdown

    (Courtesy of Alexa.com )

    搜索 图片 新闻 视频 地图

    流量 91% 6% 1% 1% 1%

    百度的音乐掌门人产品更有意思,做法是由用户自愿做掌门人,编辑音乐专集。其实编辑的工作也很简单,不过是把各处收集来的音乐放在一起,加上一些评论和图片。但是就这么个简单的产品,却很受用户欢迎,不仅反应在音乐掌门人的流量占到3%,而且从各个专集的反馈来看,用户的反应也是很热烈的。

    综合这两条看,百度的成功,功夫在局外。有人说,如此说来,百度胜之不武么。我的偏见是,百度的做法,不仅可以容忍,而且要发扬光大,最好围绕搜索引擎,形成一个信息生产和消费的循环系统,信息的生产满足了消费者的部分需求,而消费者的需求不会就此停滞,更进一步的需求增长反过来刺激更大规模的生产。

    譬如是否可以把音乐掌门人的做法,扩张到图片领域,发动用户去编辑画报。内容可以是图片新闻,或者连环画等等。更进一步,有没有可能让医学院的学生们利用课余时间,开设网上健康咨询。让车行的师傅,开设网上车辆诊断。

    要发展这些业务,有很多问题需要解决,一,如何让这些掌门人有实际的商业回报,二,如何建立可以追踪网上行为责任的法律体系,三,如何把个体的掌门人组织起来,形成规模效应,为更多用户服务。

    首先要让每个用户设立个人账号,这就是以博客为核心的个人空间。为了促进每个网民更多参与,更多贡献,需要创造一个大生产大协作的群体,而社交网的蓬勃发展给了我们非常好的提示。仔细研究一下Facebook和MySpace,它们最热门的功能无非是照片上传和组建社区。有人问,Flickr和Yahoo group不是已经有类似的功能了吗,如何解释Facebook和MySpace比Flickr和Yahoo group更成功?原因不仅是把这些功能整合起来,为用户提供更简便的操作环境。而且个人--小群体--大社区这样的社交网络,迎合了个人对于加入某个组织的渴望。

    其次,既提供给每个网络工作者宽松的工作氛围,又保障整个信息生产体系严密。在以后的章节中,我将把博客和社交网,与OO(Object-oriented)的编程范式做类比,但愿能给大家一点启发,如何去营造这样的既宽松有严密的生产体系,完成比Wikipedia更复杂的工程。

    第三,接下去我将讨论eTrade和PayPal那样的网络交易系统,不仅让掌门人有商业回报,而且必要时可以追踪法律责任。

    在这个网络信息大生产大协作的体系中,搜索引擎将扮演什么角色?首先是收益者,有了更多更好的信息,带给搜索引擎的将是更多的流量。同时,一个激进的观点是,搜索引擎不仅会成为沟通生产者和消费者的媒体,而且还可能成为协调投资行为的股票市场。当然这个观点需要实践的检验。

    关键词(Tags): #互联网#搜索引擎#Google#百度元宝推荐:晨枫,老马丁,

    本帖一共被 3 帖 引用 (帖内工具实现)
    • 家园 GG代表的不是技术,而是一种文化优势。

      汉语是弱势语言,你听说过正宗老美检索汉语的(还有什么斯瓦西里语之类)?不是和您对着干,这么比更本没道理。现在唯一能比得,就是退到1970S,检索俄语和英语的文献生产量,来对比谁的技术更好。

    • 家园 路过花之

      点看全图

      外链图片需谨慎,可能会被源头改

      点看全图

      外链图片需谨慎,可能会被源头改

      点看全图

      外链图片需谨慎,可能会被源头改

    • 家园 【文摘】google 相关,一个美国军人讲的故事

      转贴一段,这个事有点意思,另外,也推荐这个blog给大家

      晚饭

      外链出处

      也许是美国军人家庭纪律严明,整个晚饭桌上,主人一方主要就是老头一个人说话,客人一方就变成了我主说,谷主偶然插些话。晚饭的过程中,老头突然看着我,问道:你怎么看Google要退出中国这件事情?有那么一秒钟,饭桌上一点声音都没有。

      然后我说:我完全不知道Google这么做的动机是什么,不过显然不是因为Google自己冠冕堂皇说的中国的互联网审查。中国的互联网审查从Google进入中国的第一天起就在那里,Google要是因为这个退出中国,那早该退出了。Google自己也一直说:尽管有互联网审查,Google在中国的存在也使得人们可以获得更多的信息,因此洁版的Google也比完全没有Google在中国强。

      老头说:也许是这一次忍无可忍了呢?特别是来自中国的黑客攻击了Google,特别是那些持不同政见者的帐户。

      我于是问道,这也是我一直有的一个问题:你真的觉得那些黑客是政府支持的?(中国黑客犯下过不少“大案”,Google的事情当然媒体上报道的比较多,我还知道一些根本没有被报道,但破坏性更大的中国黑客进入系统的事情)。

      老头觉得有可能,然后说了一个故事,以及他的一个猜想。他说他有一个朋友在中国谈一个大买卖,在等总部的一封重要邮件,这个邮件左等右等就是不来。他担心这个邮件可能被中国的安全部门截留了,后来只能自己飞到东京,跟总部谈妥之后,告诉总部再发一封邮件,里面如此如此说。这封邮件,他也永远没有收到。后来在谈判中,对手很明显掌握了假的底线,所以他的朋友在谈判中就占了便宜。所以老头的猜想就是,黑Google的人可能是有政府背景的,但完全未必是因为政治上的考虑,而是出于商业上的考虑。这件事情和最高层没有任何关系,可能只是一些中层官员们,为了在商业上给Google的对手一些优势,所以干了这些事情。老头悠悠的说:中国的政府机构很多时候看重的其实是商业利益。

      这些故事和猜想的真伪是完全无法验证的,只是如果中国的安全部门真的中了美国人的“蒋干盗书”之计,那也太给中国人的老祖宗丢脸了。

    • 家园 杯具了~!哥的留下是为了姐,哥依然迷恋着姐~!

      http://www.goojje.com/

      • 家园 谁会用百度啊,当心被诈骗!

        今天看到的搞笑新闻,全是百度竞价排名闹的,骗子网站都排第一。

        http://baoliao.haixiachina.com/article/2010/0204/mzmhpbbrjlvev3uwjb6ik3cggg.html

        购买机票被骗汇款1758元

          张小姐向记者说起时仍哭笑不得。张小姐因过年不能回家,让家人来深过年,得知东方航空有航班从老家宜昌飞往深圳,张小姐在百度搜索引擎里输入了关键字“东方航空订票电话”,置顶的网站(shhktjjp.com)是百度的“推广链接”,看起来也很像东方航空的官网,订票电话 “400-735-2892”,张小姐对其权威性深信不疑。

          拨打该订票电话,张小姐订了两张由宜昌到深圳的机票,对方让她汇款1758元到一个工行账户中。汇款之后之后对方又致电张小姐,告知她机票需要激活,让她再到工商银行柜员机去进行进一步操作。张小姐才怀疑自己上当受骗。

          张小姐马上致电东方航空查询订票信息,才发现票根本没有订到,她只能再订了两张机票。

          “百度投诉中心电话是假冒”

          气愤难平的张小姐决定向百度公司投诉,她在百度搜索引擎中输入“百度投诉中心电话”。置顶网站只介绍百度投诉中心,没有留电话,但排名第二的网站则有明确的投诉电话:“089-88808-8385”,并且注明:人工服务。

          张小姐打过去后,对方非常友善地接受了张小姐的投诉,表示道歉并愿意赔偿损失。但赔偿损失的方式是让张小姐再去工商银行的柜员机,在他们指示下进行操作,并提示张小姐需要告知账户密码等资料。

          “马上觉得手法熟悉,跟那个订票网站如出一辙。”她说,连假冒百度投诉中心的电话在百度搜索排名里都能排上第二位,堂而皇之,让她无语。

          之后张小姐的反应是立即报警。警方给她做了笔录,表示会进一步调查核实,然后再决定处理方式。

    • 家园 百度的掌门真的是技术大牛吗

      据说回国创业前就是搜索方面最顶尖的专家之一了,真的假的?

    • 家园 开放的还是比封闭循环好

      百度这么干,商业上可以理解,是成功的策略,但是是成功的中短期策略。具体没接触过,但是如果百度内部没有技术赶超的长期策略,那是非常悲哀的。

      开放的系统,用户面向的是广阔的、不断拓展的空间,是进取的;而闭循环系统,用户只有依赖百度的智慧了。

      初创岁月,没有一点权变是不行的;但看不见差距,不对自己诚实,那是危险的。

    • 家园 呵呵,简直不敢相信

      [在技术性能方面,没有强有力的证据表明百度比Google强多少]

      您真的使用过这俩搜索引擎么?

      搜索mp3,百度很牛;搜索容易被gfw误伤的词汇方面,百度占优。

      其他方面,给个google不行的理由?尤其涉及专业性较强的和外语方面。

      写这么长的文章,在最核心的问题上面打马虎眼,会搞得所有的劳动都没有意义。

      • 家园 对mp3的搜索是法律问题

        不是技术问题。在海外未经授权的歌曲mp3是没法子免费获取的......

      • 家园 个人体验与统计数据

        个人体验固然重要,但是有失于个人偏好导致偏见的可能性。

        说一个产品比同类产品好,需要公认的客观而且全面的指标,然后通过统计给各个指标分别打分。

        搜索mp3,百度很牛;搜索容易被gfw误伤的词汇方面,百度占优。

        其他方面,给个google不行的理由?尤其涉及专业性较强的和外语方面。

        说百度占优,或者说Google不行,得有经得起质疑的数据做证据。

        这篇文章起头就说明,目前的precision和recall这两个指标,不够全面。这是对指标的质疑。

        即便以这两个不全面的指标去比较百度和Google,也看不出百度领先Google体现在什么地方。

        所以,“在技术性能方面,没有强有力的证据表明百度比Google强多少”,是个人的结论。我没有说Google一定比百度强,而是谨慎地认为,没有证据说百度比Google强,也没有证据说Google比百度强。直白一点讲,两者半斤八两,难分高下。

        既然是个人的观点,当然有出错的可能。欢迎大家斧正,但是个人体验是靠不住的,需要有扎实的证据。

        • 家园 编制索引的广度和速度?

          比如说国内某大学的bbs, 百度能搜到的往往比google更多且更新快, 至少以前是这样. 现在没试过, 不太清楚.

        • 家园 呵呵,我觉得不需要什么统计数据

          您就在这里开三个题目,然后google或者baidu之,让大家看看效果,

          高下自然可知。

          这个问题不必然需要涉及广大人群的体验统计,而成为葫芦案子。

分页树展主题 · 全看首页 上页
/ 12
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河