五千年(敝帚自珍)

主题:【原创】百度为什么不收购七把叉 -- 铁手

共:💬33 🌺46
分页树展主题 · 全看首页 上页
/ 3
下页 末页
      • 家园 当初的YAHOO也是手工建立目录的,现在应该不太有人用了

        百度那样的做法,一段时间内也许有效,但是随着网页内容越来越多,它那个做法迟早会赶不上。

        那个断词方式,我觉得还是很可行。你可以观察一下自己输入中文的时候是怎样的。我自己是词组的方式。比如上面那句话,我是这么输入的:

        自己

        词组

        方式

        在 阿里巴巴 上有这个类似的应用,是根据用户的搜索,来统计得到某个词被搜索的量有多大。

        • 家园 呵呵,我是觉得这样的工作量比以前的做法并没有多少改进

          根据用户输入来学习断词,无非需要以下的工作:

          1.写一个算法,在成千上万的输入中取一个样本出来。优点,用户已经替你断好词了。缺点,用户输入的规范性,全面性有待商榷。

          2.雇一批人,修订拿出来样本,用户输入很可能错误很多。

          传统的做法是这样的:

          1.写算法,在中文网页中抓个样本回来。优点,样本的规范性,代表性更有保证。缺点,还需要人工断句。

          2.雇一批人,给抓来的样本进行断句。

          两者比较,第一步互有优缺,主要是第二步的工作量。我觉得一个人来判断另一个人断句是否正确,比起来他直接断句,反而更麻烦。直接断句,基本上可以不用大脑,反射完成,看另一个人断句,难免要想一下。也许在这个问题上,我有点想当然,但是起码我也觉得工作量不会太省多少。

    • 家园 这样理解太牵强,gg的用意还是通过输入界面让更多人

      用它的搜索功能。靠统计数字来短句有多可靠?

      就像我说过的,gg 除了搜索没有其他本事,他们所作的一切都是以搜索为中心。

    • 家园 输入法算是GOOGLE的一个努力,是小技。

      百度所持的是本地化,是境界。说的有点玄了。主要是一时找不到合适的词,文学素养太差。

      想说的是,只要坚持自己方向,不为敌人小技所迷惑。创意无限,百度自然有自己的办法。

    • 家园 我给百度出个countermeasurement idea:

      以其人之道,还制其人。百度可以专门雇一帮人,用谷歌拼音给Google提供错误的“断词”信息:

      xi xiheshi gehaodi fang, wotiantiandou yaoqudeng zhe kantieshoude wai boerdian lingwen zhang.

      严肃地说,老铁的这个推断挺有道理。Google的那个巨大的数据库已经进入了正反馈循环,里面的信息会增长地越来越快。

      再来看看GOOGLE的拼音输入法。拼音输入的时候,在大多数的情况下,我相信每个人都基本上以词为单位,几乎没有人是一个长句子的输入,也很少有人一个字一个字的输入。也就是说,你的每一次输入,都可以给GOOGLE提供一些断句的参考。成千上万的用户的输入,对这些资料的统计,会让“断词”的有效性显著增加。在不久的将来,我相信GOOGLE的中文搜索能力会有效提高,而在英文网络世界里行之有效的ADSENSE广告也会在中文网络世界里很快得以提高。

      再回到调侃。从阴谋论的角度来看,Google正在从各个方面侵入到人们的私人生活中,后果可能是严重的。Google不停顿地推出的各种工具和服务具有一个共同点:都能收集和分析信息,绝大部分并能phone back the mother ship。Google的这些工具和服务只有一个目的:试图从各个角度,每时每刻地收集人类社会的信息。

      各种各样看似无关的信息被放到一起,成为模式分析和匹配的样本。当样本的积累达到某些阀值,就可能发现以前由于样本数量不足够而无法感知的模式。而这种发现过程的速度和准确度会随着样本数量和已知模式数量的增加而加速上升。

      做为个体,不必担心Google会知道你的“小秘密”,因为那对Google几乎没用。Google更感兴趣的是群体,比如,是不是还有其他人有同样的小秘密,这些人是不是都有某些相似之处。如果某个群体的社会习性被掌握了,那么,这个群体的弱点也就开始暴露出来了。

      想象一下那种袒露于别人目光之下的感觉吧,虽然你只是那一群“被扒光的”中微不足道、无名无姓的一个。

      调侃结束了。

    • 家园 到底是“资深业内人士”啊,厉害
    • 家园 大家都给狗狗做义工

      铁大深见啊。。。狗狗通过输入法学中文,大家利用了便利的同时,也在为狗狗创造价值。

      想深一步,WEB2.0的模式中,怎么样能大家在利用便利的同时,也为网站/软件主创造价值呢?

      广告是一个很明显的渠道,还有没有呢?狗狗想到了让大家教他中文,我们还能想到什么??

      关键词(Tags): #学中文#狗狗#创造价值
      • 家园 价值创造不仅仅来自广告,尽管广告是现在可见最主要的途径

        也是最可行的途径。。。比如这个狗狗学中文,等他学得差不多了,每个义工的贡献值就会下降。而广告的每用户贡献值是统计稳定的。

        谁能找到其他的贡献途径呢?那可就和找到金山一样了,哈哈哈哈

        比如,仅仅是比如,提供某种便利功能的同时,用户可以贡献出一点点的计算能力,顺便帮助狗狗分析几个页面的连接情况,这也是贡献,也是义工的一种。狗狗就能省下很多的数据中心电费了。。。

        谁来接龙?

    • 家园 google的中文搜索baidu差的不是一点两点~

      估计有个指数级别的差距吧。

      • 家园 BAIDU好在哪里啊?我咋看不出来?

        查个癌症,前7页全是广告,这就是你所谓的好的不是一点半点?

        生意作的一点都不老实,别的就不用提了。

        short BIDU to death!!!

        • 家园 well, the same to google.

          查个癌症,前7页全是广告,这就是你所谓的好的不是一点半点?

          I just tried by myself, :)

        • 家园 个人感觉

          个人感觉百度的确要好一些,过去我也不喜欢百度,不过最近查中文已经开始用百度了

          百度的优点是更新比较快,因为google在国内没有服务器。

          另外百度的结果重复内容比较少,国内网站抄来抄去很严重,百度显然过滤掉了这类结果

          换句话,百度的本地化好一些。说到广告,百度和google现在是半斤八两。

分页树展主题 · 全看首页 上页
/ 3
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河