五千年(敝帚自珍)

主题:Google与百度的语言处理技术比较 -- vanzolo

共:💬27 🌺40
分页树展主题 · 全看首页 上页
/ 2
下页 末页
              • 家园 你说的没错

                但是你说的比较搜索引擎的技术是从整体上来比较,而这个这里在讨论的主要是搜索引擎中用到的中文自然语言处理方面的技术。SIGHAN是针对这方面的讨论组。SIGHAN组织一些专门针对汉语分词的测试评比来比较各种相关的研究。

                而PageRank的核心思想是跟自然语言处理没有关系的。自然语言处理针对的是单个内容(网页),是局部的;而PageRank针对的是网页直接的结构关系,是面向全局的。两者考量的级别是不同的。在实现中,自然语言处理的结果往往是PageRank算法中对网页打分的一个因子。所以拿PageRank和自然语言处理来比较有点关公战秦琼啦

                其实Google是希望用户使用更长更多的关键词的,因为他们认为自己只有在更复杂的关键词上才能体现出比别人强的技术优势来。李开复曾经说过这么一个故事:Google为了让用户输入更长更多的关键词,在内部发动群众运动集思广益,最后是一个工程师想到了一个非常简单实用的主意:把首页中的搜索框拉长

                • 家园 既然比较搜索引擎,就是比较搜索技术

                  SIGHAN不是讨论搜索技术的,而是讨论语言技术的。用SIGHAN关注的问题来比较搜索引擎之间的优劣,不是张飞打岳飞吗?要真的比较的话,也得是SigIR才说得上啊。

                  事实上,搜索引擎对自然语言技术有很多应用,但自然语言技术却不是搜索引擎的最核心问题。搜索引擎处理语言文字的技术,最主要的不是自然语言技术,而是统计和机器学习技术。你单独把这个关系不是特别大的方面拉出来比较,对真正的搜索引擎比较是没有意义的。

                  我也没有说要PageRank和自然语言技术相比,而是说你比较搜索引擎,就得比较PageRank方面的技术,而不应当把自然语言技术拿来作为主要方面进行比较。

                  另外,Google之所以这么成功,有很大的因素是因为当时基于纯自然语言技术的搜索引擎效果太差。从这点上说,把PageRank和自然语言技术相比,也有其合理处。

                  • 家园 呵呵,帖子的标题就是Google与百度的语言处理技术比较
                    • 家园 你用搜索来比较语言技术

                      还是用搜索的准确性来比较语言技术优劣,还是用搜索引擎不特意优化的长搜索,这样得出的结论可有任何参照意义?

                      • 家园 搜索准确性是一个受多个因素影响的综合结果

                        而语言技术只是其中一个影响因子。不可能从搜索结果得出对引擎使用的语言技术的准确评价,我们只能管中窥豹,略见一斑而已。使用长关键字搜索就是为了突出语言技术的在算法中的影响力。

                        • 家园 你这个“略见一斑”是一厢情愿

                          你要研究自然语言,就直接研究自然语言方面的东西。有很多技术手段可以研究,比如参考这个研究百度分词算法的帖子:

                          百度分词算法详解

                          别把不相关的东西扯进来。事实上,你自己也能看出来,你的实验根本没有发现什么规律性的东西。

                          话说当年(现在可能也是,好久没跟踪了)各大网站比较CPU性能,一个必测的项目是用SuperPI这个程序。咱当时也不能免俗,运行了几次,但几次下来就发现了巨大问题:这个程序所计算的时间值是包括IO时间在内的!于是,如果把这个程序放到很慢的盘,比如网络盘上,那么测出的性能就极低。显然,真要用这个测试反映CPU的性能就是一个笑话。一个如此不严谨的测试,在各大网站,包括国外的评测网站,竟然用得不亦乐乎。这真是无可奈何的事情。不过,在任何严谨的研究中,谁要是这么用,显然是不能被接受的。

                          西西河有那么多大牛发表各种高质量的帖子,我们总不能把西西河的水平降到电脑报这样的水平吧。否则各大牛情何以堪?

          • 家园 癌症 百度第一条是百度百科

            第二条是 39癌症疾病_中国第一专业肿瘤疾病网站

            google的第一条是 39癌症疾病_中国第一专业肿瘤疾病网站

            第二条是 癌症-肿瘤中国最权威的癌症(肿瘤)资讯平台-搜狐健康

            看起来google这个结果更像买来的。。。。

    • 家园 认真的人总是要花的...
    • 家园 传说百度对查询关键词进行手工分割,

      这也许是第二个例子结果更加靠谱的原因?

      不知道对搜索结果是否也进行手工整理。

      我搜索中文的时候还是主用百度,google出来的不靠谱的似乎要多一些。

      • 家园 对于人工介入需要说明一下

        应该是对于搜索引擎判断不好的情况进行了手工切割,同时更新了词典。搜索引擎判断不好的情况既可能来自关键词,也可能在算法在处理网页时遇到。而后者应该占大多数。而词典的维护很大程度上是一种人工介入。

        在中文自然语言处理中,词典非常重要,百度应该投入了很大力量(包括人力)维护词典。对于比较规整的句子,使用好的词典能够得到很好的结果。

        词典维护包括新词添加,词性标注,调整权重等等工作。随着语言的变化发展,要不断补充词汇,调整权重,修改标注,优化算法,才能保持比较好的搜索体验。

        词典对中文自然语言处理非常重要是因为现代汉语里面词汇以多字词为主,而对句子进行分析必须先把句子分割成合理的词汇组合,也就是要先分词。这是对面向西方语言的自然语言处理里面所不需要的。

        百度的词典做得好,算法对中文有进行充分的优化,同时也在不停地改进,所以百度敢说”我们更懂中文“。Google主要面向的内容还是以西方语言为主,所以它的算法在处理起中文来回有些拘束,不能完全显示出他的技术实力来。

        另外词典的维护很大程度上是一种人工介入。虽然有很多算法是面向生词识别的,但是没有人工的介入对算法发现的生词进行判断,基本上没有多大利用价值。Google一直号称他的算法是没有人工介入的,所以对词典的使用上有些忌讳。当然完全没有人工介入是瞎扯,要是不对算法的参数进行人工调整,怎么会出现PR值发生突变的情况。而且Google也有对网站PR值直接调整的机制。google.jp因为犯错就被Google处罚了(现在好像已经刑满释放啦)。搜索引擎完全是一个黑箱,现在还没有谁能监督搜索引擎的公平性。

        当面对一个很难使用现代汉语词典分词的句子(比如古文)时,搜索引擎就可以采取一种以字为单位分析的方法。这时候中文的处理方式就和西语处理没有太大区别啦,甚至会更加简单粗暴一些:直接依据字的排列顺序搜索而不考虑里面的语法关系、词性权重等等。这是因为大多数搜索引擎面对的是现代语言,而现代语言和古代语言在语法和词性词义上有很大区别,依据现代语言建立起来的模型在面对古代语言的时候很难发挥出多大左右,越是对现代语言优化的模型越是这样。

        所以,在Google和百度上搜索古文时经常会不相上下。比如搜索”言举斯心加诸彼而已“(《孟子·梁惠王章句上·第七章》)

        Google的结果

        百度的结果

        我猜他们都是在使用以字为单位的切词方法来处理这句。现代汉语词典面对这样的古文基本上只能缴械投降啦


        本帖一共被 1 帖 引用 (帖内工具实现)
    • 家园 这样细致理性的分析才值得一读!
分页树展主题 · 全看首页 上页
/ 2
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河