五千年(敝帚自珍)

主题:【原创】百度和Google,谁更强大,为什么? -- 邓侃

共:💬168 🌺346 🌵1
全看分页树展 · 主题
家园 【原创】百度和Google,谁更强大,为什么?

判断一个搜索引擎的质量的标准是什么?是准确性(Precision),还是完备性(Recall)?都对,但是都不完整。其实,搜索引擎作为一个产品,它的质量好坏归根结底还是看顾客对它的接受程度,也就是市场占有率,而市场占有率是通过流量(Traffic)来评估的。

有人问,假如我们提高了Precision和Recall,是不是就可以赢得更多流量呢?下面的表格是2004年5个搜索引擎的性能对比,Google不比 Alta Vista好多少,比HotBot稍差,比Scirus差得就更远了。但是同期Google在全球搜索引擎的市场占有率是45%以上,而表中其它搜索引擎的市场占有率没有哪一家超过5%。所以,结论是,Precision和Recall,与搜索引擎的市场占有率没有必然联系。

Table 1. 2004年5个搜索引擎的Precision和Recall比较

(Courtesy of Shafi & Rather )

Alta Vista, Google, HotBot, Scirus, Bioweb

Precision 0.27 0.29 0.28 0.57 0.14

Recall 0.18 0.20 0.29 0.32 0.05

有人争辩说,Precision和Recall只关心被搜索引擎找到的结果中,正确的结果占的百分比,以及被找到的正确结果,占所有正确的结果的百分比,这两个性能指标并不能准确反映用户的满意程度。其实,所谓正确的结果中,也有更正确和不那么正确之分,所以更准确地反映用户满意程度的指标是结果的排序。Google凭借PageRank技术,给找到的结果打分并排序。而PageRank的打分,看来比较符合用户的期望,所以Google成功了。

我的偏见是,把扩大搜索引擎的流量,完全寄希望于提高引擎本身的技术性能,这个思路是危险的。比较百度和Google,在技术性能方面,没有强有力的证据表明百度比Google强多少。假设技术性能决定流量,那么百度最多只能和Google平分市场份额。但是事实上,在中国搜索引擎市场,百度占了市场份额的70%以上,远远把Google抛在后面。因此百度的领先,反证了技术决定论的不成立。

另外一个原因是,当今世界技术进步的速度很快,即便是PageRank这样的技术,很快就被很多公司效仿。极端一点讲,搜索引擎方面似乎已经不存在什么技术是哪家公司的独步秘笈。搜索引擎技术,已经成为大路货(commodity),你能做,我也能做。

百度的成功,我看主要因素有两条。一是闭循环系统,二是人力因素。

在说明闭循环系统之前,先看看什么是开循环。Google基本是一个开循环,用户通过Google查找信息,Google返回若干结果,每个结果是一个指向其它网站的链接。用户点击链接,就离开Google,访问其它网站了。但是百度有意成为一个闭循环系统,用户在百度查找信息,百度多半会返回百度知道,百度百科,百度贴吧等等百度其它产品的内容。而这些其它百度的产品,多半会附带搜索服务,而所用的搜索引擎,无一例外统统用的是百度自己的搜索引擎。换句话说,百度的搜索引擎把用户流量带给百度的其它产品,而其它产品又把流量反过来输送回百度搜索引擎。当然,如果百度知道等等其它产品的质量很差,用户也不一定会听从百度引擎的疏导,但是目前看起来百度知道,百度百科,百度贴吧等等产品相当受用户欢迎。即使在Google查找信息,也经常被引导到百度知道,百度百科这些产品上来。

百度第二个成功的诀窍是人力因素。提到人力因素,或许会有人想到Social search engine这样的技术,它是依靠用户打分以及跟踪用户使用搜索引擎的行为,来提高搜索引擎返回结果的质量。百度也依靠人力,但是目的不是提高搜索质量,而是从事两种事情。一,编辑整理内容。二,生成新内容。下面这张表,分析了百度各个产品吸引的用户流量。除了搜索引擎以外,其它高流量产品都有人力参与的成份。譬如图片,mp3,知道,音乐掌门人,视频,新闻和百科,都有编辑整理的痕迹。而图片,贴吧,知道,音乐掌门人,视频,百科等等,内容本身也是由百度用户自己生成的。用专业术语讲,就是“用户生成的内容(User Generated Content)”。百度要维持一支相当规模的内容编辑队伍,这一点恐怕是其它搜索引擎公司所不具备的。百度花了大力气,像Wikipedia那样发动群众生成内容,这一点也是其它搜索引擎公司所不具备的。

Table 2. Baidu traffic breakdown

(Courtesy of Alexa.com)

搜索, 图片, 贴吧, mp3, 知道, Hi, 掌门人, 视频, 新闻, 百科

流量 49% 12% 12% 6% 6% 3% 3% 2% 1% 1%

对比Google的图片和百度的图片。Google的界面仅仅是一个简单的搜索输入框,而百度不仅有输入框,而且还有一些目录,包括爆笑趣图,精品推荐,美女明星,卡通动漫,精美壁纸,电影电视,风景名胜。每个目录下面是由人力收集和编辑的图片。做法不复杂,但是却占了百度流量的12%,可见深受用户欢迎。对比一下Google.cn,它的图片只占总流量的6%。可见有没有编辑,效果大不一样。

Table 3. Google.cn traffic breakdown

(Courtesy of Alexa.com )

搜索 图片 新闻 视频 地图

流量 91% 6% 1% 1% 1%

百度的音乐掌门人产品更有意思,做法是由用户自愿做掌门人,编辑音乐专集。其实编辑的工作也很简单,不过是把各处收集来的音乐放在一起,加上一些评论和图片。但是就这么个简单的产品,却很受用户欢迎,不仅反应在音乐掌门人的流量占到3%,而且从各个专集的反馈来看,用户的反应也是很热烈的。

综合这两条看,百度的成功,功夫在局外。有人说,如此说来,百度胜之不武么。我的偏见是,百度的做法,不仅可以容忍,而且要发扬光大,最好围绕搜索引擎,形成一个信息生产和消费的循环系统,信息的生产满足了消费者的部分需求,而消费者的需求不会就此停滞,更进一步的需求增长反过来刺激更大规模的生产。

譬如是否可以把音乐掌门人的做法,扩张到图片领域,发动用户去编辑画报。内容可以是图片新闻,或者连环画等等。更进一步,有没有可能让医学院的学生们利用课余时间,开设网上健康咨询。让车行的师傅,开设网上车辆诊断。

要发展这些业务,有很多问题需要解决,一,如何让这些掌门人有实际的商业回报,二,如何建立可以追踪网上行为责任的法律体系,三,如何把个体的掌门人组织起来,形成规模效应,为更多用户服务。

首先要让每个用户设立个人账号,这就是以博客为核心的个人空间。为了促进每个网民更多参与,更多贡献,需要创造一个大生产大协作的群体,而社交网的蓬勃发展给了我们非常好的提示。仔细研究一下Facebook和MySpace,它们最热门的功能无非是照片上传和组建社区。有人问,Flickr和Yahoo group不是已经有类似的功能了吗,如何解释Facebook和MySpace比Flickr和Yahoo group更成功?原因不仅是把这些功能整合起来,为用户提供更简便的操作环境。而且个人--小群体--大社区这样的社交网络,迎合了个人对于加入某个组织的渴望。

其次,既提供给每个网络工作者宽松的工作氛围,又保障整个信息生产体系严密。在以后的章节中,我将把博客和社交网,与OO(Object-oriented)的编程范式做类比,但愿能给大家一点启发,如何去营造这样的既宽松有严密的生产体系,完成比Wikipedia更复杂的工程。

第三,接下去我将讨论eTrade和PayPal那样的网络交易系统,不仅让掌门人有商业回报,而且必要时可以追踪法律责任。

在这个网络信息大生产大协作的体系中,搜索引擎将扮演什么角色?首先是收益者,有了更多更好的信息,带给搜索引擎的将是更多的流量。同时,一个激进的观点是,搜索引擎不仅会成为沟通生产者和消费者的媒体,而且还可能成为协调投资行为的股票市场。当然这个观点需要实践的检验。

关键词(Tags): #互联网#搜索引擎#Google#百度元宝推荐:晨枫,老马丁,

本帖一共被 3 帖 引用 (帖内工具实现)
全看分页树展 · 主题


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河