五千年(敝帚自珍)

主题:【原创】怎样设计翻译软件让计算机翻译得又快又好? -- 巨龙的脚步

共:💬10 🌺6
全看分页树展 · 主题 跟帖
家园 哈哈,我一直在做机器翻译。

我3年前的预言:30年内全自动的机器翻译不会达到实用性。有人不信,那么我们就拭目以待。

我给你的比较:我以前是做 OCR的,在汉王做。算是国际领先了吧?即使汉王,也仅仅是印刷体的汉字能翻译的比较准确,有实用性。手写体的识别也是一塌糊涂。那么机器翻译和OCR的难度相比如何呢?你看,一二年级小学生能做手写体的OCR,也就是能读懂一般人的手写体文稿。而大学毕业的人未必能做翻译。

翻译的难度:

1.原文是变动的,因为语言一直在变,不仅仅在于新的生词的增加,而且语法也一直在变。一篇文章,我们读过之后,大约能猜出那个年代写的。

2.输出不是唯一的。这给模式识别的自动训练造成了天大的困难。

3.输出不仅仅有对不对的说法,还有好不好的说法,对于一个复杂的句子,谁能给一个完美的翻译(信、达、雅)

4.口语就能难了,太不确定了。

我去年想到一个方法,能极大的提高机器翻译的准确度,我自己都能笑醒。可是缺乏大规模的投资支持,公司的资金也不够支持,Sigh...

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河