五千年(敝帚自珍)

主题:【原创】百度为什么不收购七把叉 -- 铁手

共:💬33 🌺46
全看分页树展 · 主题 跟帖
家园 呵呵,我是觉得这样的工作量比以前的做法并没有多少改进

根据用户输入来学习断词,无非需要以下的工作:

1.写一个算法,在成千上万的输入中取一个样本出来。优点,用户已经替你断好词了。缺点,用户输入的规范性,全面性有待商榷。

2.雇一批人,修订拿出来样本,用户输入很可能错误很多。

传统的做法是这样的:

1.写算法,在中文网页中抓个样本回来。优点,样本的规范性,代表性更有保证。缺点,还需要人工断句。

2.雇一批人,给抓来的样本进行断句。

两者比较,第一步互有优缺,主要是第二步的工作量。我觉得一个人来判断另一个人断句是否正确,比起来他直接断句,反而更麻烦。直接断句,基本上可以不用大脑,反射完成,看另一个人断句,难免要想一下。也许在这个问题上,我有点想当然,但是起码我也觉得工作量不会太省多少。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河