五千年(敝帚自珍)

主题:【原创】Google:重回1998?(上) -- forsake

共:💬41 🌺462
分页树展主题 · 全看首页 上页
/ 3
下页 末页
    • 家园 pagerank之所以有效也是人的能力,而不是人工智能

      在一个页面里嵌入某几个链接,哪怕是用代码生成的,也体现了信息间内在的联系,这个过程包含了人的劳动。链接排序能暴露这里头的知识,所以机械的算法搜索才是有价值的。但是,如果想进一步“分析”页面间的语义关系,这就不是目前的机械的算法能有效解决的,最后都会遇到人工智能的天花板。还是,等计算机科学上,什么时候“图灵检验”被完成了再说吧。

      通宝推:cngood,
    • 家园 google的广告之前也可以弄虚作假的呢

      之前给LD搜索UGG的时候就出现过,页面最上面的广告栏上面写的什么“Official UGG Site”,显示的链接也是UGG的官网,就是一点下去就跑到什么别的网站去了。我当时就想,如果这样是不是可以利用大家对google的信任来搞什么钓鱼呢?比如你搜什么美洲银行之类的,上面都显示得无比正确,然后就让你跑到我的钓鱼网站上,套取你的账号密码什么的。这样不知道google要不要负责任的呢?

      不过刚才又实验了一下,至少UGG不好用了,确实是指到官网了,不知道是不是google改进了

      • 家园 这种做假国内有人试过了

        前些日子在第一财经周刊上见过相关报导

        说是一个卖假爱疯的网站,网站做的跟真的官网一样,并在google搜索上排名靠前

        还成功骗了不少钱

      • 家园 广告的话,google应该负责

        Google上的广告即Adwords,内容还是要经过人工审查的。当然人工也有疏漏,就会有你说的情况发生。

        如果因adwords被钓鱼,应该可以找google的麻烦。毕竟页面上显示广告属于主动行为,而且google因此获利,自然要负上责任。

    • 家园 SEO早已经成为价值几十亿美刀的“产业”了。
      • 家园 SEO不是万恶之源

        其实吧,我倒脚着,没有SEO反而不正常,有SEO才是正常的状态。

        SEO就像庄稼地里的杂草,坏处是它们捂死了大部分规规矩矩的小庄稼苗,但是万一哪一个能脱颖而出的话,那肯定是非常优秀的长杆高粱...

        这也是为何Wikipedia在不少领域排名第一的缘故...

    • 家园 很好的介绍

      挺通俗易懂的

    • 家园 【原创】Google:重回1998?(下)

      有需求,就有供应。“内容农场”(Content Farm)应运而生。所谓内容农场,就是雇佣廉价写手,大量的发灌水文章。当然,文章主旨还是会跟热门关键词挂钩。尽管内容低劣,但糊弄搜索引擎是绰绰有余——要指望计算机来分辨文章水平的高下,那还有的等。他们赚钱的方式有两种:1.把文章卖给有SEO需求的网站;2.自己直接在文章上打广告赚钱。链接+内容双剑合璧,登上搜索引擎前列很轻松。随之而来的巨大访问量,变成广告收益还是大有赚头。这方面,最出色的内容农场当属Demand Media,每月生产内容近百万条,甚至还上了市,价值13亿美金。多亏了Google。

      还能搞得再大些吗?当然可以。互联网界闻名遐迩(说是臭名昭著也行)的美国在线(AOL),前一段收购了一家网络报纸Huffington Post,就引来议论纷纷。甚至连一向古板的经济学人杂志都开始怀疑,此举是看中了Huffington Post大量发布原创内容的能力,AOL将来的运作模式也很可能效仿Demand Media,在搜索引擎排名上卡位,继而吸引流量和广告。

      问题现在很明显:Google改进搜索技术的努力,一方面确实淘汰了不少作弊招数,另一方面,却也催生了越来越专业的公司,从提升搜索排名上赚得脑满肠肥。此消彼长之下,普通用户的搜索体验,仍然没有太多的改善。当然,变化也是有的:我们的搜索内容分成了两个领域,无商业价值的搜索,比如“云南地理”,和有商业价值的搜索,比如“云南旅游”。在前者,Google的效率无可争议,你几乎可以确定,排名榜首的结果就是想要的答案。但在有商业价值的搜索上,你就要祈求苍天保佑了。原因在于,我们想要的往往是中立、客观的解答或评价——这类内容总是赚不到钱的。无商业价值的领域,由于不存在专业SEO的竞争,基本可以做到优质者优先;但在有钱赚的领域,作为商家必争之地,专业SEO就可以大显身手。投入小的中立信息,自然要让位给商业广告。就如一位SEO 从业者,接受纽约时报采访时所说的:谁在SEO上砸钱最多,谁的排名就越高。

      成为变相竞价排名网站,而竞价收益还不归自己,这显然不是Google的初衷。那就得琢磨出个办法来啊。作为一家纯粹的极客公司,Google信奉的是数学计算主义:优秀的算法+高性能的计算能力,是可以取代甚至超越人脑的。这套理念确实相当有效:Google搜索,就一直兼具机器搜索的高效,和人工搜索的准确。至于Google翻译,更是走了一条算法+计算+海量数据,从而逼近人工智能的路——效果还相当不错。但在对付SEO上,Google主义似乎碰到了困难:单凭计算机是搞不定SEO作弊的,还得要人脑才行。

      当然,纯靠机器包打天下行不通,Google自己也明白。它内部就有专门的职员,负责找出计算机顾及不到的作弊方法,然后对算法加以改进。如果机器无法识别以及惩罚作弊者,传言说Google还可以用人工降低,甚至移除某个网页的搜索排名——当然,Google官方是否认的。不过,问题在于:要处理的数据太庞大了。面对每天10亿次的搜索量,这得要多少人力才可以应付自如?而且,要增加人手的话,会带来更多的管理以及组织问题,极客公司可以建立庞大的计算中心,却未必有能力管理大规模的雇员——后者往往意味着整个组织架构、甚至公司文化的变更,一不小心就可能是万劫不复的下场。

      既然内部人力不足,就只好借助用户们了。Google的搜索结果旁边,终于有了一颗小星星,让用户表达对其的喜爱之情。最近还出了一个浏览器插件,让人们可以把某个网站的内容,从搜索结果里踢出去。老实说,这些功能,早就被用户呼唤多年,现在才出来,实在是有点迟缓。

      Google慢,别人可没闲着。社区网站的兴起,展示了一条新路:不再以网页为中心,而以人为中心组织信息。而相应的,有人提出了 “PeopleRank"来取代PageRank,即以人与人之间的关系与信任程度,代替网页之间的链接,作为衡量信息价值的标准。这个当然不错,毕竟一个人改名换姓要比网站改域名困难一些,说起话来也能慎重一点儿;同时,还可以利用人们线下已有的信任关系。但其副产品,实名制的推行,恐怕会让很多网络自由主义者失望。另外,作弊的空间仍然存在:就像网页时代有链接农场一样,社区时代自然也会有关系农场。微博上的付费转发和僵尸粉,不就是收费链接的社区版么?道理是不会变的:只要有人愿意出钱,你获得的信息就会受到干扰。

      但新一代社区网站的好处在于,我们可以自由选择信息源。如果一个人总是搞付费转发,取消对他的关注就是了。Google的那个可以移除网站的插件,显然也是赋予了用户更多选择的权力。不过,这么一来,我们可能会遇到新问题:信息来源越来越封闭。结果就是形成一个个的信息孤岛,不同人群之间的隔阂也会越来越深,共识越来越少。对于一个圈子不够大,又过于封闭的群体来说,还有思想日趋僵化,失去竞争力的危险。这个时候,最有价值的往往是这么一个信息源:它本身具有足够的信誉,受人信任,又致力于在孤岛外,庞大的信息海洋中,过滤出有意义的部分。在过去,它可能是一个见多识广、交游广阔的朋友,也可能是一份声誉良好的杂志;甚至Google也在一定程度上承担了这份职责。那么在今天,它又该是以什么形式出现?它还会是Google吗?

      我的互联网日记系列:

      索引地址

      关键词(Tags): #互联网日记#搜索引擎#google#SEO

      本帖一共被 1 帖 引用 (帖内工具实现)
      • 家园 插一句,google不允许手工调整search的结果

        你可以用算法来调整,但不允许手工的提高或者降低某些网站的排名。

        • 家园 呃,这个看怎么理解了

          当然google是否认的,这点我的文章没有提及,应该修改。

          不过,实际上google是动用过这个权力的。比如和bing的纠纷,googleblog就承认,人为修改了搜索结果。

          We created about 100 “synthetic queries”—queries that you would never expect a user to type, such as [hiybbprqag]. As a one-time experiment, for each synthetic query we inserted as Google’s top result a unique (real) webpage which had nothing to do with the query.

          http://googleblog.blogspot.com/2011/02/microsofts-bing-uses-google-search.html

          • 家园 google内部的政策不允许手工修改

            这次是特例,否则怎么可能做这个实验?至于正式的搜索结果,没有人指责google手动修改过rank。都是百度早就有传闻,如果不在百度上打广告,你就不能在百度上搜索到。

            • 家园 google确实已经做得很好了

              不过,只要它的算法处于黑箱状态,怀疑就会持续。当然,这种怀疑也很难证实。

              另外,和百度一样,google也有相关流言。欧盟也正在调查google广告与自然排名的影响,请看纽约时报相关报道:

              http://www.nytimes.com/2011/02/13/business/13search.html?pagewanted=5&_r=1

              Is it possible that Google was willing to countenance an extensive black-hat campaign because it helped one of its larger advertisers? It’s the sort of question that European Union officials are now studying in an investigation of possible antitrust abuses by Google.

              Investigators have been asking advertisers in Europe questions like this: “Please explain whether and, if yes, to what extent your advertising spending with Google has ever had an influence on your ranking in Google’s natural search.” And: “Has Google ever mentioned to you that increasing your advertising spending could improve your ranking in Google’s natural search?”

      • 家园 人是活在现实中的,关系也是真实世界中的关系

        所以,要过滤,也应该直接从真实世界中直接过滤,而不是从网络中再总结。反过来讲,纯粹网络中的people rank有个问题,一方面形成的是小圈子;另一方面,名人效应使得少数名人如针尖般冒出来。

分页树展主题 · 全看首页 上页
/ 3
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河