五千年(敝帚自珍)

主题:【原创】百度和Google,谁更强大,为什么? -- 邓侃

共:💬168 🌺346 🌵1
全看树展主题 · 分页首页 上页
/ 12
下页 末页
家园 想听qq与gov之间不得不说的%8

家园 我自己折腾了一下

这个是我在blogger上的博客使用google Analytics统计后的数据。

我的博客东西很杂,技术相关的、生活随笔、个人爱好、搞笑的转帖……

折腾内容:

1.按照baidu的前三名关键字在baidu中搜索,基本排在第二第三页

2.按照google的前三名关键字在google中搜索,第一,第三个关键字都在第一页,第二个关键字不在前三页

3.按照baidu关键字在google搜索,不在前三页

4.按照google关键字在baidu搜素,不在前三页

有趣的是,3、4所搜索结果的不同,很大程度上在于分词的不同,google返回的是符合语义的最长关键词,baidu返回的是符合语义的最短关键词。

得出结论:

这个结果并不是反映了两种搜索引擎的用户搜索内容的不同,关键在于搜索引擎对用户的理解不同。

我的blog地址就不贴了,想看的话按google第一、第二个关键字一搜就知道了。

家园 百度找个国内的资源不是一般比google好用。

两者的差距就跟google跟百度这两个公司的差距一样~

家园 折腾得好

看到你的博客了。

Google和百度在技术上有些微的不同,这个不同不仔细分析,还真是不容易发现。

你的分析非常有意思。经常交流。

家园 呵呵,我最爱瞎折腾了。
家园 【原创】关于几个技术问题的说明

1.关于Precision和Recall

Precision和Recall在信息检索的不同应用中,难度是不一样的。打个比方,在电子图书馆中检索就比在互联网上搜索页面容易。电子图书馆里的内容是静态的,规范的,而互联网的内容是动态的,不规范的甚至是恶意的。比如说有的好网页在文法上很烂,用词错误,断句错误。因此搜索引擎在建立索引时会发生错误。或是说有的垃圾网页恶意的重复关键字,借以达到排名靠前的目的。

度量相关度有一些常用参数--比如说DCG/NDCG。在测试时,只有类似的系统相互比较才有意义。谈到通用搜索引擎,我们一般会比较GYMA(Google/Yahoo/MSN/Ask)。不久前我看到过一个测试结果,对于短句(5个以内关键词),Y/M的相关度都约为G的99%,A则明显差一些。对于长查询,由于G在自然语言处理方面的优势,领先优势就更明显一点但也不是致命的。

无论如何,将Google和Scirus,Bioweb,或是Hotbot比意义是不大的。

2.关于PageRank

PageRank是决定相关度的重要因素之一,但绝不是什么决定性因素。我猜这也是为什么Google让Stanford拥有该专利的原因。PageRank表示一份文档有多重要,但搜索是要找到关键词和文档之间的关系。通常一个搜索引擎使用的相关性模型有数百个输入参数,而PageRank只是其中相当重要的一个而已。

3.关于百度和Google为什么成功的另外一点理由

我前面的分析大概有点让人失望。看上去高深无比的PageRank不是Google成功的秘诀。不过,一个公司的成功,本来就不是象神话故事那么简单。一个搜索引擎,从网页搜集,PageRank计算,自然语言处理,逆向索引,相关模型训练,人工修正......,每一件事情就已经非常具有挑战性,更何况这些项目都要同时进行。基本上,如果我是谢尔盖或是拉瑞的话,Google就已经完了。

4.运气运气运气

这么多人做,总会有一个成功者。有时候,我们在分析为什么G/B会成功时,也许不是在为结果找一个原因,而是在为一个原因找一个结果吧。

家园 同意啊

我也是由goole转百度的,究其原因却是百度那很简陋的贴吧。

相信经过05超级女声的人多少都在百度“声名狼藉”的贴吧中花费过不少的时间,在这段时间时间中,使用习惯就慢慢转换了

恭喜:你意外获得【通宝】一枚

鲜花已经成功送出。

此次送花为【有效送花赞扬,涨乐善、声望】

家园 花,顺便多说几句

这个要花。

百度最吸引人的除了中文搜索功能比google强大之外,还有百度百科是wiki被封之后的最佳替代品,百度贴吧相当于小bbs,百度知道能解决不少生活中的问题,还有百度mp3就不用说了。

家园 说得非常好。

送花。

无论如何,将Google和Scirus,Bioweb,或是Hotbot比意义是不大的。

说得非常好。之所以没有拿Google和Yahoo,MSN,Ask比较Precison和Recall,主要原因是只找到Google和Scirus,Bioweb和Hotbot,而没有找到Google与Yahoo,MSN和Ask的比较。所以就偷懒了一下。结果被无逻辑兄逮了一个正着。:)

PageRank是决定相关度的重要因素之一,但绝不是什么决定性因素。

这句话说得也对。PageRanking已经不是Google的独门秘诀,而是你有我也有的commodity。Google成功的关键原因,主要是它把系统各个部分都做得很精致。此外,加上一点luck。

至于为什么百度能够在中国市场赢得胜利,我觉得人工因素不可忽视,甚至是关键原因。Googler们可能认为靠人工因素胜出,胜之不武,没有太多技术含量。但是从用户角度出发,用户是不在乎技术含量多寡,他们重视的是用户体验。只要用户体验好,大量引入人工因素,有何不可?

家园 我认为,百度优在面向懒人

前面几个帖子都说明,百度的搜索比股沟差的还是很多的,那为什么百度成功了而强大的股沟却败了呢?

我们说上百度的都是谁呢?我的父母上网,三达不留点好,回车(自动填充)。之后点新浪、搜狐啥的,一开始连进新浪财经都得从新浪回三达不留点好,历史记录自动消除的时候还以为上不去网了。他们搜索,一般都不弄关键字,上来都是“为什么XXX”。那么,股沟这么一搜也能搜到啊,为什么还得百度呢,我们看,键入“为什么XXX”,无论百度还是股沟,第一页肯定跑不了百度知道。

百度成立后,要打败股沟怎么办呢?先找人编出来搜索引擎。那找谁呢?最佳选择:收购股沟。。。这个不现实,找洋教授当白求恩来,不划算,本地找人技术还不行,最后的结果就是,到现在依然不行。不行那不完了?有招,孟爷曰:“人之患在好为人师。”咱只要在脑门上写上学生二字,必然能跑出来好几个老师,孔爷曰:“三人行,必有我师焉。”中国13亿人口,4亿多老师,何愁大事不定。于是生活常识、公式定理、文学名著、热点时事、小学作业、毕业论文全能在百度知道里找出来,特方便。

MP3就简单了,股沟拉不下这个脸,得罪不起这个人,这个太中国特色了,股沟只有完败的份。

再说贴吧,这个是个好东西,我喜欢XXX,但是百度一搜,这么多综合论坛,太杂了,哪个好那个坏我一小白根本分不清,何况你要是发表说我喜欢XXX不喜欢YYY,没准就被哪个喜欢YYY的大佬盯上,我这辈子就算拿下了。右侧一看,XXX贴吧,OK,就这个了,能来这的都是同好,就是一小团体,都喜欢XXX,就是有喜欢YYY的也不敢露出来,或者偷偷冒个泡“YYY也还行”,真有砸场子的咱就一致对外挤走删走,胜利。通过贴吧也可以了解更专业的论坛。这百度帖吧给喜欢XXX的人一个机会,你什么都不懂也可以架一个论坛,小众化的小圈子,删帖有时候都不用自己动手,太棒了!同好一起凑钱租服务器,懂点技术的就架论坛,走上正规军的道路。

百度百科,这个且不说WIKI被封,就是不被封我估计也打不过百度,咱群众都喜欢聚堆,网游早有泡泡堂不玩,玩QQ堂,早有联众不去,玩QQ游戏,韩国早有什么跟现在QQ秀挺像的,在多数人都不知道的情况下就被QQ秀打败了。我要不是上大一的时候别人告诉我WIKI我都不知道有WIKI这码事。我还是认为WIKI封了也不是太坏,告诉我WIKI那哥们现在JY化了,认为李大师及其弟子们说的有一定道理。

搜索,这个本应该是核心的,但是在强大的百度知道这个人肉搜索引擎前变得暗淡无光,但是大家还是用这个用的很高兴,为什么呢?因为百度太本地化了。我想查个华硕主板,把型号打到股沟,头几页全都是英文,看着太闹心了,累挺。打到百度,哪怕说我输入的一个中文没有,也照样给我一大票国内网址,想查个外国的都没有。百度的意思很明确,您英语这么好,百度很难满足你的要求 ,请到隔壁股沟。我查国外的资料肯定用股沟,查国内的肯定用百度。而且百度自己GFW,可以很方便的推出网页快照,Very Good。这个股沟就吃亏了。

抓住多数,放走少数,努力满足大部分人的需求,这就是百度成功的关键。懒人的百度。

家园 转一个比较囧的:百度传说

硬盘里的,不知道哪儿抓下来的,不记得原地址了。

1.把baidu倒着打成这样http://www.udiab.com.cn/

....进去以后你一定会晕。然后试着搜索一下....哈哈,你会更晕!!!

2.用baidu搜索SB,第一个显示的是google.你再直接进google搜下SB试试,看看显示的是谁。。。

3.大家都知道百度的网址是www.baidu.com,但是,谁能想到他们居然还有另外一个域名:

www.mamashuojiusuannizhucedeyumingzaichangbaidudounengsousuochulai.cn

域名是拼音,翻译成中文是:"妈妈说就算你注册的域名再长百度都能搜索出来",不信,你搜搜看!

4.你再把baidu和Google合在一起http://www.baigoogledu.com/搜搜看,哈哈,一左一右两个网页同时供你使用,牛啊!

家园 三达不留点,股沟,

我想查个华硕主板,把型号打到股沟,头几页全都是英文,看着太闹心了,累挺。打到百度,哪怕说我输入的一个中文没有,也照样给我一大票国内网址,想查个外国的都没有。百度的意思很明确,您英语这么好,百度很难满足你的要求,请到隔壁股沟。我查国外的资料肯定用股沟,查国内的肯定用百度。而且百度自己GFW,可以很方便的推出网页快照,Very Good。这个股沟就吃亏了。

说得好。对市场切分,专门处理,这个方面,百度的确做得更好一些。

家园

很有趣。

只是没有看出百度镜像的妙处。迟钝 :(

家园 貌似google不支持ASP动态更新的网站

google不收录asp动态网站的内容

而baidu支持

google为什么不完善这个功能呢?

家园 就一般来说百度百科不比维基百科差多少

维基比百度唯一强的事情是,一些在国内会被和谐的事情在其上边可以搜到.但是态度上绝对没有中立.而在其他方面,我觉得百度比他强.但只限于中文维基,维基英文确实很好.可惜我英文不好.

全看树展主题 · 分页首页 上页
/ 12
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河