五千年(敝帚自珍)

主题:【原创】Google:重回1998?(上) -- forsake

共:💬41 🌺462
全看树展主题 · 分页首页 上页
/ 3
下页 末页
家园 【原创】Google:重回1998?(上)

这个春节,Google估计过得不怎么样。Android手机热卖这样的好消息当然有,但更多的却都不是什么开心事儿:Facebook一步步壮大,自己的社区化尝试毫无进展自不必说;和Bing之间的口水战也就那样了;最伤筋动骨的,还要算是纽约时报2月12号发的一篇报道:搜索的肮脏小秘密。

捅篓子的是一家叫JCPenney的美国百货公司。人家一不小心,居然在几十个热门关键词搜索里,占据了Google的榜首位置。“服装”、“家具”、 “装饰”这些词儿就不用说,甚至连指名道姓要搜索的“新秀丽箱包”里,生产商新秀丽自己都只能委屈的蹲在JCPenney屁股下面。

怎么干的?还能怎么干,搜索引擎优化(SEO)呗。这也不算新闻,随便上网查查,满大街都是相关类型的公司,号称能够把你的网站整到搜索引擎的头几名。但老实说,真正说到做到的并不多。而能在热门关键词里,让你排名Google榜首的,绝对是凤毛麟角。如此说来,帮JCPenny干活的那家公司 SearchDex,可真的是劳模了。

网站雇佣SEO公司,提升自己的搜索引擎排名,这在互联网界几乎人人都在做,彼此心照不宣就是。但坏就坏在JCPenny这次搞的动静太大,招来了纽约时报的记者,终于东窗事发。结果是SearchDex被东家解雇,JCPenny的Google排名也一落千丈。

事情看起来告一段落,但引起的争论和思考却很要命:搜索优化怎么可以这么厉害?如果纽约时报不调查,Google自己能发现么?更重要的是,我们还能相信Google的搜索结果吗?这些问题,以及答案,才真正的触动了Google的立身之本。

1998年成立,以搜索起家的Google,之所以成名,靠的就是提供更精准,更受信赖的搜索结果。其技术核心,在于大名鼎鼎的PageRank。它主要依靠指向网页的链接,而不是网页本身内容,作为判断该网页排名高低的依据。这个在当年确实是一场革命:之前的Yahoo/AltaVista,只要你的网页上“服装”这个词出现的频率足够高,它就能在关于“服装”的搜索上排名靠前。改改网页就能作弊,搜索结果自然也就伪劣充斥。使用PageRank之后,作弊就困难多了:光修改自己的网页没用,你还得在别人的网页上添加指向自己的链接才行。

一时间,作弊者手足无措,Google也因此一战成名。但很快的,变通方法就出台了:交换链接,你加我一个链接,我还你一个,大家互惠互利。接着,就有了专门的交换链接网站,让你瞬时获得成百上千的外部链接。Google的应对也很简单:被认定为交换链接的,不做统计,不能因此提升排名。交换链接没用了,并不是世界末日。很快就有三角链接,甚至链接拍卖市场出现。Google进一步的打击,就又催生了专业的“链接农场”(LinkFarm):通过注册或广告协议,控制一大群网站的链接部分,随着Google算法的不同,改变自己的链接形式。总之,道高一尺,魔高一丈。只要你肯出钱,提升网站排名的链接总能买到手。

这是没办法的事:PageRank的原理,和现实中投票选举差不离。既然有投票,自然就有人会买票贿选。相对于真实世界,互联网贿选的成本要低多了:法律约束几乎不存在,而新建一个网站或网页,怎么说也比生一个孩子简单吧。固然,Google对信誉高的网站,其推荐的链接也给予更高的影响力——但架不住假冒伪劣者人数众多啊。就拿JCPenney来说吧,它一口气搞定了几千个外部链接,真正做到了“千夫所指”。这个数字在SEO界,是相当普遍的,达到并不困难。“租用”上千链接一年的花费,从几百到几万美金不等,依链接质量和SEO公司的宰人程度而定。显然,JCPenney手里的链接,那是相当的有质量。

租用链接固然豪爽,但失之简单粗暴,有迹可寻。毕竟,如果你一夜之间多了成百上千个链接,搜索引擎通过算法统计很快就可以察觉。改进的办法就是慢慢来:SEO公司会在半年甚至一年的时间内,逐步增加链接的数量,高明的还会以波段式添加,一切就显得更自然,更健康。

这么折腾一番下来,大家也都明白了:光靠链接判断网页质量是不够的。因此,Google又不得不增加对网页本身内容的评估。当然,比起当年数关键词,技术还是进步了不少。比如语义分析,就可以排除掉大量仅仅是重复热门关键词的垃圾网页。也就是说,单靠链接农场+计算机自动生成网页不好使了,你还得有点真正的内容才行。

预知后事,请看下集

我的互联网日记系列:

索引地址

关键词(Tags): #互联网日记#搜索#搜索引擎#google#SEO元宝推荐:晨枫,铁手, 通宝推:容易,cngood,晃晃悠悠,fumachu,

本帖一共被 1 帖 引用 (帖内工具实现)
家园 【原创】Google:重回1998?(下)

有需求,就有供应。“内容农场”(Content Farm)应运而生。所谓内容农场,就是雇佣廉价写手,大量的发灌水文章。当然,文章主旨还是会跟热门关键词挂钩。尽管内容低劣,但糊弄搜索引擎是绰绰有余——要指望计算机来分辨文章水平的高下,那还有的等。他们赚钱的方式有两种:1.把文章卖给有SEO需求的网站;2.自己直接在文章上打广告赚钱。链接+内容双剑合璧,登上搜索引擎前列很轻松。随之而来的巨大访问量,变成广告收益还是大有赚头。这方面,最出色的内容农场当属Demand Media,每月生产内容近百万条,甚至还上了市,价值13亿美金。多亏了Google。

还能搞得再大些吗?当然可以。互联网界闻名遐迩(说是臭名昭著也行)的美国在线(AOL),前一段收购了一家网络报纸Huffington Post,就引来议论纷纷。甚至连一向古板的经济学人杂志都开始怀疑,此举是看中了Huffington Post大量发布原创内容的能力,AOL将来的运作模式也很可能效仿Demand Media,在搜索引擎排名上卡位,继而吸引流量和广告。

问题现在很明显:Google改进搜索技术的努力,一方面确实淘汰了不少作弊招数,另一方面,却也催生了越来越专业的公司,从提升搜索排名上赚得脑满肠肥。此消彼长之下,普通用户的搜索体验,仍然没有太多的改善。当然,变化也是有的:我们的搜索内容分成了两个领域,无商业价值的搜索,比如“云南地理”,和有商业价值的搜索,比如“云南旅游”。在前者,Google的效率无可争议,你几乎可以确定,排名榜首的结果就是想要的答案。但在有商业价值的搜索上,你就要祈求苍天保佑了。原因在于,我们想要的往往是中立、客观的解答或评价——这类内容总是赚不到钱的。无商业价值的领域,由于不存在专业SEO的竞争,基本可以做到优质者优先;但在有钱赚的领域,作为商家必争之地,专业SEO就可以大显身手。投入小的中立信息,自然要让位给商业广告。就如一位SEO 从业者,接受纽约时报采访时所说的:谁在SEO上砸钱最多,谁的排名就越高。

成为变相竞价排名网站,而竞价收益还不归自己,这显然不是Google的初衷。那就得琢磨出个办法来啊。作为一家纯粹的极客公司,Google信奉的是数学计算主义:优秀的算法+高性能的计算能力,是可以取代甚至超越人脑的。这套理念确实相当有效:Google搜索,就一直兼具机器搜索的高效,和人工搜索的准确。至于Google翻译,更是走了一条算法+计算+海量数据,从而逼近人工智能的路——效果还相当不错。但在对付SEO上,Google主义似乎碰到了困难:单凭计算机是搞不定SEO作弊的,还得要人脑才行。

当然,纯靠机器包打天下行不通,Google自己也明白。它内部就有专门的职员,负责找出计算机顾及不到的作弊方法,然后对算法加以改进。如果机器无法识别以及惩罚作弊者,传言说Google还可以用人工降低,甚至移除某个网页的搜索排名——当然,Google官方是否认的。不过,问题在于:要处理的数据太庞大了。面对每天10亿次的搜索量,这得要多少人力才可以应付自如?而且,要增加人手的话,会带来更多的管理以及组织问题,极客公司可以建立庞大的计算中心,却未必有能力管理大规模的雇员——后者往往意味着整个组织架构、甚至公司文化的变更,一不小心就可能是万劫不复的下场。

既然内部人力不足,就只好借助用户们了。Google的搜索结果旁边,终于有了一颗小星星,让用户表达对其的喜爱之情。最近还出了一个浏览器插件,让人们可以把某个网站的内容,从搜索结果里踢出去。老实说,这些功能,早就被用户呼唤多年,现在才出来,实在是有点迟缓。

Google慢,别人可没闲着。社区网站的兴起,展示了一条新路:不再以网页为中心,而以人为中心组织信息。而相应的,有人提出了 “PeopleRank"来取代PageRank,即以人与人之间的关系与信任程度,代替网页之间的链接,作为衡量信息价值的标准。这个当然不错,毕竟一个人改名换姓要比网站改域名困难一些,说起话来也能慎重一点儿;同时,还可以利用人们线下已有的信任关系。但其副产品,实名制的推行,恐怕会让很多网络自由主义者失望。另外,作弊的空间仍然存在:就像网页时代有链接农场一样,社区时代自然也会有关系农场。微博上的付费转发和僵尸粉,不就是收费链接的社区版么?道理是不会变的:只要有人愿意出钱,你获得的信息就会受到干扰。

但新一代社区网站的好处在于,我们可以自由选择信息源。如果一个人总是搞付费转发,取消对他的关注就是了。Google的那个可以移除网站的插件,显然也是赋予了用户更多选择的权力。不过,这么一来,我们可能会遇到新问题:信息来源越来越封闭。结果就是形成一个个的信息孤岛,不同人群之间的隔阂也会越来越深,共识越来越少。对于一个圈子不够大,又过于封闭的群体来说,还有思想日趋僵化,失去竞争力的危险。这个时候,最有价值的往往是这么一个信息源:它本身具有足够的信誉,受人信任,又致力于在孤岛外,庞大的信息海洋中,过滤出有意义的部分。在过去,它可能是一个见多识广、交游广阔的朋友,也可能是一份声誉良好的杂志;甚至Google也在一定程度上承担了这份职责。那么在今天,它又该是以什么形式出现?它还会是Google吗?

我的互联网日记系列:

索引地址

关键词(Tags): #互联网日记#搜索引擎#google#SEO

本帖一共被 1 帖 引用 (帖内工具实现)
家园 很好的介绍

挺通俗易懂的

家园 Google的那颗小星星

不会是从老铁的那朵花那里学来的吧。算法再好,用足来自用户的信息还是对头的思路。

我很中意西河的浏览模式,因为有花和草,替我过滤掉了大部分我不需要一个一个打开的注水帖,而只要关注有质量的那些。

而实名制能带来的额外好处就是多了一个加权,除非效果很明显,不然顶不住自由主义者们对无所不知的Google的敌意。

家园 SEO早已经成为价值几十亿美刀的“产业”了。
家园 小星星也可以造假的吧

自动每天进行若干查询,点小星星...

家园 google的广告之前也可以弄虚作假的呢

之前给LD搜索UGG的时候就出现过,页面最上面的广告栏上面写的什么“Official UGG Site”,显示的链接也是UGG的官网,就是一点下去就跑到什么别的网站去了。我当时就想,如果这样是不是可以利用大家对google的信任来搞什么钓鱼呢?比如你搜什么美洲银行之类的,上面都显示得无比正确,然后就让你跑到我的钓鱼网站上,套取你的账号密码什么的。这样不知道google要不要负责任的呢?

不过刚才又实验了一下,至少UGG不好用了,确实是指到官网了,不知道是不是google改进了

家园 实名制肯定不是解决方案

互联网问题可以用现实生活中的例子来比方:就好比街头开了好多家大商场,你想买件大衣但又不知道该去哪一家

-- 你站街头瞪眼看,哪家人流汹涌就去哪家:你这是看Google Organic Ranking

-- 你翻报纸或者看电视,看谁家广告打得凶就去谁家:你这是依靠Google CPC

-- 你跟亲戚朋友打听,大家众口一词:“买大衣,去大福源”:你这是依靠social networking

即便是现实生活中也没法杜绝作弊:某些商场可以雇一帮托儿,前门进后门出,搞得门庭若市;打广告的也不能信,最后搞不好羊毛还是出在羊身上...

亲朋好友么,除非你欠钱不还,一般不会存心害你... 可是可是问题是三姑和二姨妈她们都是老太太,天天去大福源买菜买成习惯了,让你去那里买大衣 -- 这个信息的准确性,囿于圈子的封闭,而大打折扣...

说了半天我的意思是:现实生活中无解的问题,也不要指望Google或者Fb那几个脑袋瓜使劲拍就能拍出个天才解决方案 -- 拍出脑震荡倒是很可能...

那么现实生活中,你是怎么决策的呢?如果你像我一样小心的话,就会既站街头瞅瞅,也看看电视,当然也会跟三姑二姨妈她们聊一聊,最后综合一下:还是大福源人多,就它了!

网络上大抵也是如此 -- 估计没人会把信心完全放在Google或者FB身上... 过去不会,现在不会,将来也还是不会...

通宝推:我来也,
家园 广告的话,google应该负责

Google上的广告即Adwords,内容还是要经过人工审查的。当然人工也有疏漏,就会有你说的情况发生。

如果因adwords被钓鱼,应该可以找google的麻烦。毕竟页面上显示广告属于主动行为,而且google因此获利,自然要负上责任。

家园 SEO不是万恶之源

其实吧,我倒脚着,没有SEO反而不正常,有SEO才是正常的状态。

SEO就像庄稼地里的杂草,坏处是它们捂死了大部分规规矩矩的小庄稼苗,但是万一哪一个能脱颖而出的话,那肯定是非常优秀的长杆高粱...

这也是为何Wikipedia在不少领域排名第一的缘故...

家园 确实,就看google的算法怎么设计了

一定程度上的作弊行为还是可以发现的。当然,现在来看,小星星对网站排名的影响还不明显。

家园 完美的解决方案是个诱惑

确实,这个理想不太可能实现。不过,既然衡量人类行为的数字化信息越来越完备,那么一个好的算法,加上足够的计算能力,还是可以逼近这个目标的,至少应该比以前强。Google应该就是这么想的

当然,问题在于,干扰信息也越来越多

家园 物理有测不准原则,搜索结果自然有排不准现象。

假设有某个搜索排序公式可以绝对准确地排序结果,于是搜索排序之。

排序结果在何处呈现?GOOGLE/BING/百度。结果呈现是为了什么?点击。点击次数影响排序结果吗?请问GOOGLE/BING/百度。

家园 pagerank之所以有效也是人的能力,而不是人工智能

在一个页面里嵌入某几个链接,哪怕是用代码生成的,也体现了信息间内在的联系,这个过程包含了人的劳动。链接排序能暴露这里头的知识,所以机械的算法搜索才是有价值的。但是,如果想进一步“分析”页面间的语义关系,这就不是目前的机械的算法能有效解决的,最后都会遇到人工智能的天花板。还是,等计算机科学上,什么时候“图灵检验”被完成了再说吧。

通宝推:cngood,
家园 人是活在现实中的,关系也是真实世界中的关系

所以,要过滤,也应该直接从真实世界中直接过滤,而不是从网络中再总结。反过来讲,纯粹网络中的people rank有个问题,一方面形成的是小圈子;另一方面,名人效应使得少数名人如针尖般冒出来。

全看树展主题 · 分页首页 上页
/ 3
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河