五千年(敝帚自珍)

主题:Google与百度的语言处理技术比较 -- vanzolo

共:💬27 🌺40
全看分页树展 · 主题 跟帖
家园 对于人工介入需要说明一下

应该是对于搜索引擎判断不好的情况进行了手工切割,同时更新了词典。搜索引擎判断不好的情况既可能来自关键词,也可能在算法在处理网页时遇到。而后者应该占大多数。而词典的维护很大程度上是一种人工介入。

在中文自然语言处理中,词典非常重要,百度应该投入了很大力量(包括人力)维护词典。对于比较规整的句子,使用好的词典能够得到很好的结果。

词典维护包括新词添加,词性标注,调整权重等等工作。随着语言的变化发展,要不断补充词汇,调整权重,修改标注,优化算法,才能保持比较好的搜索体验。

词典对中文自然语言处理非常重要是因为现代汉语里面词汇以多字词为主,而对句子进行分析必须先把句子分割成合理的词汇组合,也就是要先分词。这是对面向西方语言的自然语言处理里面所不需要的。

百度的词典做得好,算法对中文有进行充分的优化,同时也在不停地改进,所以百度敢说”我们更懂中文“。Google主要面向的内容还是以西方语言为主,所以它的算法在处理起中文来回有些拘束,不能完全显示出他的技术实力来。

另外词典的维护很大程度上是一种人工介入。虽然有很多算法是面向生词识别的,但是没有人工的介入对算法发现的生词进行判断,基本上没有多大利用价值。Google一直号称他的算法是没有人工介入的,所以对词典的使用上有些忌讳。当然完全没有人工介入是瞎扯,要是不对算法的参数进行人工调整,怎么会出现PR值发生突变的情况。而且Google也有对网站PR值直接调整的机制。google.jp因为犯错就被Google处罚了(现在好像已经刑满释放啦)。搜索引擎完全是一个黑箱,现在还没有谁能监督搜索引擎的公平性。

当面对一个很难使用现代汉语词典分词的句子(比如古文)时,搜索引擎就可以采取一种以字为单位分析的方法。这时候中文的处理方式就和西语处理没有太大区别啦,甚至会更加简单粗暴一些:直接依据字的排列顺序搜索而不考虑里面的语法关系、词性权重等等。这是因为大多数搜索引擎面对的是现代语言,而现代语言和古代语言在语法和词性词义上有很大区别,依据现代语言建立起来的模型在面对古代语言的时候很难发挥出多大左右,越是对现代语言优化的模型越是这样。

所以,在Google和百度上搜索古文时经常会不相上下。比如搜索”言举斯心加诸彼而已“(《孟子·梁惠王章句上·第七章》)

Google的结果

百度的结果

我猜他们都是在使用以字为单位的切词方法来处理这句。现代汉语词典面对这样的古文基本上只能缴械投降啦


本帖一共被 1 帖 引用 (帖内工具实现)
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河