五千年(敝帚自珍)

主题:【原创】汉语和英语的比较 -- 颜赤城

共:💬368 🌺1318 🌵2
全看分页树展 · 主题 跟帖
家园 一、语言的编码效率

语言究竟是什么呢?语言是一套编码系统。人类的语言和电子设备的通信协议,本质上是一样的。就是我有信息,我通过这套代码和协议传送给你,你接受到我的信息并且理解,我们完成了这个交流的过程。(我觉得没有学习过电子工程的语言学家们可能不能从这个角度理解语言,所以有时候会冒出些偏颇的结论。)

语言有两个方面,口头和书面。人类语言都是从口头语言发展起来的,成熟的语言会发展到书面形式。如果这么理解的话,口头和书面好像是一个事物的两个方面。但是如果你从编码的角度理解,你就会有个新的视角——口头和书面是两套代码,一套音频代码,一套视频代码。这两套代码是个多对多的映射关系。口头和书面,不如我们想象中的联系那么紧密。

从这个结论出发,我们会得到很多推论。随意的举几个例子:

一、我们可以有全新的一套视频代码替换现有的,而这个系统工作正常,比如有人提出抛弃汉字,全部拼音化。

二、口头语言的编码效率和书面语言的编码效率是可以分开来看的,比如汉语的口头语言的效率要比汉字的效率高。

三、书面的字符集要包括上标点符号,因为标点符号是传达不可或缺的信息的。比如英语离开空格是无法工作的。不要小看这个空格,这里面有讲头,以后再讲。

等等等等

有人说汉字的效率高,因为同样的一篇文章,肯定是中文的最短。我并不是太确定。这里面有个字体大小的问题。你必须有个标准。比如,把字体调到能让人能看清的最小限度,在同样面积的里面,究竟哪种语言能传送更多的信息。我没有明确的结论。

从书写的角度,汉字的速度显然慢。所以汉字才被简化以提高书写速度。

显然汉字可以进一步简化而不引起歧义。为了提高效率,越简化越好吗?不是的。编码学还有另一个指标,叫做容错。一条信息的冗余越小,它的容错率就越差。比如英语也可以简化,就是缩写。Quantity可以缩写成Qty而不引起任何歧义,但是容错能力巨减。如果你错写一个字母或者少写一个字母,比如写成Quatity,读者可以猜测你的意思,但是如果Qty变成Qt,读者就是错误理解为quarter。所以效率的提高是以牺牲容错能力为代价的。

汉字的书写速度慢,但是阅读速度快。因为汉字接近图形,而人对图形的反应比对字符的反应要快得多。所以你看软件菜单里,有的干脆用汉字作图标(让不认识汉字的人使用汉字图标!)

因为汉字的传出(书写)成本高,传入(阅读)成本低,可以得出一个有趣的结论是,汉字在大规模信息传递中,效率比其他语言高。也就是说,假设所有人都懂汉语和英语,纯粹以效率来衡量,一对一的书面交流应该用英文,出版报纸则应该用中文。

纸面书写是传统方式,在计算机时代,键盘输入和硬盘内存储存是新的衡量标准。结论也是显而易见,汉字输入慢,汉字存储密度高。中文输入法仍然是个软点。

讲完书面讲口头。

代码集大的系统有优势。汉语的优势在乎声调。汉语有四声,再加上轻声,共有5种声调, 21个声母,35个韵母。英语有28个辅音,20个元音。这个差别还是比较大的。

一个比较合理的计量方法是:

汉语,比如“汉”,计作2,因为它包含h和an。但是“睡”要计作3,因为它有sh, u, i。如果是三声的“水”,要计作4,因为三声和其他声调不同,它是个拐音。

英语。Pen,计作2,道理与汉语相同。Language要计作6,因为它有l, an, g, u, i, ge。Select要计作6,这里的每个字母都发音。汉语的拐声被多计一个数,相应的,英语的长音要计作2,比如cheese要计作4,因为它用时略长。

注意上面不是我们常说的音节,我算得比较细,权且称为“音数”吧。

常见的日常词汇里,大概四五个音数就搞定了。但是英语稍微复杂一点音数就开始增长,即使像常见的finish, prepare, tooth paste。flower是个更过分的例子,这么常用的词竟然有5个音。

而中文词汇基本上都用两个汉字,到四个汉字就到了成语的领域。(成语需要单独讨论。古语的信息载量更大,四个字顶一句话。)中文里四个以上的词汇极少。即使像“绻缱”这么罕见的词都是两个字。

再据个例子,“造”是基本的通用的字,“盖”精确一些涵盖面小一点,“建设”算是比较高级的词。他们的音数分别是2,2,5。对应成英文:make, build, construct。音数分别是3,4,7。稍微复杂一点单词就变长了。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河