五千年(敝帚自珍)

主题:Google与百度的语言处理技术比较 -- vanzolo

共:💬27 🌺40
全看分页树展 · 主题 跟帖
家园 使用引号是把文字顺序放在最高优先级

当文字顺序作为最高优先级的时候,词典的作用就基本被忽略啦,可以和以字为单位进行切割的情况。而以字为单位的情况可以参考这里

在搜索引擎对网页中的一个句子进行处理的时候,都会产生不同级别的分词结果,其中就包括完全以字为单位进行切割的结果。处理算法会的不同的结果打分,尽量选取最优的结果。但是并不是说其他结果就都会被抛弃掉。很多时候以字为单位的切割结果都会保留下来,为的就是能够支持关键词完整匹配模式,也就是使用引号的情况。

不使用引号时,搜索引擎会先对关键词分词,去掉其中的停用词(不过现在流行不去掉停用词啦,为的就是能够得到更优的结果,代价就是算法的复杂度增大和耗费的时间增多)。然后在对关键词分词的结果去和倒排索引中的条目进行匹配,再对匹配处理的条目进行汇总打分排序,得到最后的结果。这个计算过程中起最大作用的是词(字)本身的属性,也就是权重、词性、词义等,而词(字)在关键词和网页内容中的位置参数属比较次要的位置,对最后的结果影响较小。

使用引号时,搜索引擎认为词(字)的位置信息更重要。能够和完整的关键词完全匹配的结果能够得到高分。而词典中的词汇属性就退居次要地位啦。

对于例子2,使用引号得到的结果可以参考这里的说明。这时两个引擎的中文语言处理功力基本上没有发挥的余地。

对于例子3,使用引号的结果说明百度对中西混合的内容处理上有欠缺。因为“使用 Optim Data Privacy 解决方案在开放平台上定制数据转换”中的英文部分包括了空格,而空格是英文词汇的天然分隔符。这对英文处理已经炉火纯青的Google来说可以说是小菜一碟,但是对于从中文处理发展起来的Baidu来说就是不小的麻烦啦。应该说Baidu在这方面还有很多事情要做。

对于引号的使用,百度给出了解释

精确匹配——双引号和书名号

如果输入的查询词很长,百度在经过分析后,给出的搜索结果中的查询词,可能是拆分的。如果您对这种情况不满意,可以尝试让百度不拆分查询词。给查询词加上双引号,就可以达到这种效果。

例如,搜索 上海科技大学 ,如果不加双引号,搜索结果被拆分,效果不是很好,但加上双引号后,“上海科技大学”,获得的结果就全是符合要求的了。

书名号是百度独有的一个特殊查询语法。在其他搜索引擎中,书名号会被忽略,而在百度,中文书名号是可被查询的。加上书名号的查询词,有两层特殊功能,一是书名号会出现在搜索结果中;二是被书名号扩起来的内容,不会被拆分。 书名号在某些情况下特别有效果,例如,查名字很通俗和常用的那些电影或者小说。比如,查电影“手机”,如果不加书名号,很多情况下出来的是通讯工具——手机,而加上书名号后,《手机》结果就都是关于电影方面的了。

这里明确说明了括号会“让百度不拆分查询词”。所以使用引号会把搜索引擎分词能力给掩盖掉。

BTW,Google能够很快给出指向这个帖子的结果(荣幸一下),得益于他高效的爬虫、快速的建立索引的能力和强大的计算平台的支持。这方面,Baidu就差的多了(当然也和西西河的服务器不再国内有关系,Baidu的爬虫更多的是面向国内的网站)。好像记得Google在准备推出即时搜索功能,也就是说这里这里刚刚把帖子发出来,他的爬虫就已经把网页抓走啦(好可怕)呵呵,一定的时延应该还是会有的,但是对于一般的网站已经足够强大啦。这个功能对于使用Google Site Search的网站非常有用,基本上可以用Google代替传统的站内搜索啦。

当然,这些Google的强项不是在中文语言处理方面的,也就不是这个帖子讨论的主要方面啦。Google还有很多技术上的优势,即使是自然语言处理上也是数得着的。如果搜索关键词是“八国联军”,百度那就死得不是一般惨啦所以百度从来都是在强调自己在中文处理上的能力而只字不提其他语言也是不得已的。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河