五千年(敝帚自珍)

主题:【原创】百度为什么不收购七把叉 -- 铁手

共:💬33 🌺46
全看树展主题 · 分页首页 上页
/ 3
下页 末页
家园 百度之所以中文搜索好

是因为他雇了好多人来为热门搜索手工调整rank,没办法,国内就是人工便宜。这是当初李彦弘亲自当PM也解决不了后推出的办法。

铁老大说的断词,我觉得基本上不可行。通过这个方法,只是能提供一个无限大的原始数据集,但是要用到开发,测试,还是要先提供一个算法来取一个样本出来,然后找些人来去伪存真,这些工作,不比直接从抓来的中文页面开始,取样本,人工标注,省多少力气。后者的样本还有可能更全面。

家园 只要使用的人群达到一定数量,统计意义上有效。偏差应该不大

讨论这个帖的时候,有了个新的想法。也许将来可以用来在西西河自己实现全文搜索。

家园 当初的YAHOO也是手工建立目录的,现在应该不太有人用了

百度那样的做法,一段时间内也许有效,但是随着网页内容越来越多,它那个做法迟早会赶不上。

那个断词方式,我觉得还是很可行。你可以观察一下自己输入中文的时候是怎样的。我自己是词组的方式。比如上面那句话,我是这么输入的:

自己

词组

方式

在 阿里巴巴 上有这个类似的应用,是根据用户的搜索,来统计得到某个词被搜索的量有多大。

家园 全文检索是个好东西。

现在硬件便宜了,大家都能玩儿了。你准备用现成的引擎么?

家园 不好意思

你们都那么关心百度吗?我怎么一直很讨厌它啊,自从那年它利用封锁google之举发家以来...

家园 听说 gg 也是人工调整的

yahoo 开发了一个全自动的算法,并申请了专利。具体不太清楚。

家园 不太相信阿,google都是机器人的干活
家园 呵呵,我是觉得这样的工作量比以前的做法并没有多少改进

根据用户输入来学习断词,无非需要以下的工作:

1.写一个算法,在成千上万的输入中取一个样本出来。优点,用户已经替你断好词了。缺点,用户输入的规范性,全面性有待商榷。

2.雇一批人,修订拿出来样本,用户输入很可能错误很多。

传统的做法是这样的:

1.写算法,在中文网页中抓个样本回来。优点,样本的规范性,代表性更有保证。缺点,还需要人工断句。

2.雇一批人,给抓来的样本进行断句。

两者比较,第一步互有优缺,主要是第二步的工作量。我觉得一个人来判断另一个人断句是否正确,比起来他直接断句,反而更麻烦。直接断句,基本上可以不用大脑,反射完成,看另一个人断句,难免要想一下。也许在这个问题上,我有点想当然,但是起码我也觉得工作量不会太省多少。

家园 胜负才是结果,英雄不问出处

手段不算啥,貌似中国人吃人家的亏更多……

家园 要做正确的事,更要正确地做事

我不喜欢那些为达目的不择手段的人或公司.

家园 俺喜欢把事情干成的人或者公司……
家园 嗯....

可能刚好说反。在商业社会,要正确的做事,要做正确的事。

商场如战场,拿一些日常生活中的道理去批评,恐怕有些似是而非。对于任何一个企业来说,抓住机遇都是最重要的。如果说因为国内封杀Google而要求百度也止步不前,以示不乘人之危,要“公平竞争”。未免有些襄公之仁了。

家园 技术俺不懂。字面上理解,拼音输入法是主流。

只有这个前题下,本文才能讨论下去。

可是,有足够的统计数据证明,拼音输入法是主流吗?

可但是,假设拼音输入法是主流,有足够的统计数据证明,数量上占优势的拼音输入法群体,也是质量上的优势群体?

具体到俺本人,搜索引擎上的排位、关键词、点击率、人气这些因素,在我的互联网生涯中几乎没有什么影响。

网络信息,对我的意义主要是提供尽可能准确的参考,价值判断基本靠我自己做出来。如果叫真,还得返回传统信息渠道。近年过眼烟云般的热门词汇,我基本没有应用,自问也并不落伍。

BTW:这几年网络推手弄出来的所谓红人,我绝大多数听都没听过,一点儿没耽误我在互联网上赚小钱。不过这个有点和本回复无关了。

家园 airman这话说得地道

据我所知,百度的确没有主动地去陷害,而是主动的利用了机会而已。

家园 最好都干掉

我一直觉得搜索引擎竞价排名这种商业模式是社会毒瘤,最好有新的搜索引擎厂家干掉google和baidu。

我认为搜索引擎也应该像其他提供广告的网站一样按时间段和位置等等明码标价,不定期调整价格。并且在搜索结果中应该明确区分广告客户的链接和搜索引擎“自然”搜索得到的结果。

全看树展主题 · 分页首页 上页
/ 3
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河