五千年(敝帚自珍)

主题:Google与百度的语言处理技术比较 -- vanzolo

共:💬27 🌺40
全看分页树展 · 主题 跟帖
家园 其实搜索引擎见功力的地方恰恰是短搜索

如果有50%的人提交的搜索是lz测试的这个样子,做搜索引擎的人都可以失业了。你提交的这些搜索,如果专门去优化,其实是很好做的。这样的搜索只要把查全率做上去,基本上就解决了。如果你真的做个搜索方面的研究就知道,查全率要做上去很容易,只要解决速度问题,语言上不需要太多处理,用带子句内位移的单字索引即可做得很好。

事实上,90%以上的搜索只有1-2个词,还往往是非常通用的词,其匹配的结果可能上百万页。此时查全率没有任何意义,精度也没有任何意义,传统的评价搜索结果好坏的标准完全失效。这才是PageRank发挥威力的地方。由于短查询如此之普遍,现在所有的搜索引擎都是针对短查询优化的。计算机技术的特点(其实大多数技术都如此),就是优化某一方向必然导致另一方向的劣化。所以,现在的搜索引擎对长查询往往结果不太理想。

另外,搜索引擎目前的一个重要的核心技术和语义还没有任何关系,就是反SEO(Search Engine Optimization: 搜索引擎优化)。SEO就是针对PageRank之类的排序算法,把特定的目标网页的排名优化到最前面的技术。这类技术显然是破坏搜索引擎排序算法准确程度的,所以搜索引擎要获得好的结果,要把这些SEO制造的垃圾数据从真正有用的互联网数据中去除再进行网页排序计算。

所以,要比较搜索引擎的技术,主要应当比较对短查询的处理能力和反SEO的水平。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河