主题:Google与百度的语言处理技术比较 -- vanzolo
这里只是比较两个搜索引擎对语言的处理能力,不涉及后台的其他技术。
Google是从以词语为单位的自然分词语言发展过来的,处理大多数外语都很有经验。
Baidu是从以字为单位的非自然分词语言发展过来的,处理中文这样的语言经验丰富。
Google很早就开始国际化,所以处理多语言混合的内容要比Baidu成熟许多。Baidu现在还是主要以中文或者类似的东方语言(如日语)为主要方向,对西方语言和多语言混合处理起来笨拙很多。
中文这样需要分词的语言处理起来和西方语言有很大不同,如果是中西混合的内容,复杂程度又要增加很多。
两个搜索引擎对不同语言支持程度的不同也使不同用户有了不同的印象:IT工作者很多时候都是在使用英文词汇,甚至有时候很难找到对应的中文词汇来表达,所以这些人会感觉Google好很多;而对于主要使用中文搜索的用户,当搜索关键词比较复杂(比如长句)的时候,百度的优势就会显示出来了。
例子1:搜索关键词:Concurrency with Python, Twisted, and Flex (我找的是JavaEye的帖子,这里是英文原文)
Google直接就找的了英文原文这对于专业人员很重要
第一页的结果基本上都靠谱或者沾边
Baidu也不错,把英文原文放在了第二位。但是从结果上看,不如Google的好。
这一局Google小胜
例子2:搜索关键词:是否可以考虑放弃浏览器另起炉灶 (河里的帖子)
这个例子搜索的关键词是一个中文长句。
Google给的第二个结果已经很不靠谱啦:
第一页10个结果有6个不靠谱
Baidu第一页只有最后一个不沾边:
Baidu搬回一局
例子3:搜索关键词:使用 Optim Data Privacy 解决方案在开放平台上定制数据转换 (IBM developerWorks中国的文章)
Google准确命中目标
但是。。。只限于前两个结果(包括这两个结果所属网站的其他结果),第一页后面的结果就有点不知所云啦
Baidu没有找到靶心
但是。。。第一页的所有结果都跟搜索关键词有或多或少的关系
怎么比呢。。。算是平手吧
在这样三个不同类型的测试中两个搜索引擎基本上部分高下。但是这是在三种类型关键词出现概率相同的条件下。如果用户日常搜索的关键词偏向于某一类的话,用户的到的体验就完全不一样啦。
所以出发点不同,导致结果不同。每个人都可能对搜索结果有自己直观的感受,每个人的感受都可能不同,单纯从自己的角度评论搜索引擎的语言处理技术水平不能说明什么问题。
本帖一共被 1 帖 引用 (帖内工具实现)
- 相关回复 上下关系8
🙂Google与百度的语言处理技术比较
🙂你这个做得是黑盒测试啊· 就从功能角度方面测。 潜水火龙果 字314 2010-01-25 20:52:56
🙂就是黑盒测试,而且是专门针对语言处理方面的 vanzolo 字558 2010-01-25 21:26:25
🙂我认为楼主对例子2的分析不是特别准确 偶然 字408 2010-01-25 07:20:23
🙂怎么说呢, 粗茶淡饭 字510 2010-01-25 02:47:55
😁不同的比较结果,楼主被命中 1 水随天去秋无际 字2164 2010-01-22 06:57:34
🙂LZ是考虑到AI, 1 粗茶淡饭 字286 2010-01-25 02:54:53
🙂手法倒是谈不上,只是实验中的一种策略而已 vanzolo 字400 2010-01-25 21:53:11