五千年(敝帚自珍)

主题:【原创】为什么汉语是世界上最先进的语言(上) -- 冷酷的哲学

共:💬1516 🌺8640 🌵163
全看分页树展 · 主题 跟帖
家园 关于中文的纠错能力,一点小想法

语言是用来交流的。语言在交流的过程中可以存在以下过程。

1.录入过程,就是人们把心中的文字变成纸张上或屏幕上的文字的过程。

2.传递过程,指的是,从录入方录入完成,到读取方开始读取,之间的过程。

3.读取过程,可以分成两个子过程。

一是把纸张上或屏幕上的文字,还原成心中的文字。

二是把心中的文字,最终复原成语音。(这个子过程不一定会发生。)

下面谈纠错:

1.首先看录入过程。对于一种语言,语音是一个encoder,文字是另一个encoder。中文的语音和文字是脱节的,所以只能依靠文字的encoder进行纠错。拼音文字的语音和文字相互关联,所以可以实现两个encoder相互纠错。所以拼音文字在录入过程中的纠错能力比中文强。

2. 然后看媒体传递阶段。纠错靠冗余。同样的内容,中文英文各搞一份,然后做压缩。中文文件在大多数情况下size小于英文文件,说明汉语的冗余小。中文的冗余小所以潜在的纠错能力把英文弱。

3. 最后看看读取过程。

先是把纸张上或屏幕上的文字,还原成心中的文字这个子过程。这里,无论英语还是中文都要靠上下文。但是,中文不使用空格断词,所以同样是词(word)级别的错误,中文有机会让它升级到上下文的层次。这样对于中文,通过上下文纠错就变得不那么可靠了。

最后是复员语音。由于中文的文字与语音分离,朗读的人无法通过文字提示读音,读了错别字,自己是无法意识到的,自然也就无法进行纠错。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河