五千年(敝帚自珍)

主题:【原创】试论汉字的科学性(二) -- 大西洋14

共:💬68 🌺142
全看树展主题 · 分页首页 上页
/ 5
下页 末页
家园 【原创】试论汉字的科学性(二)

很高兴(自我感觉良好)看到自己的主题帖引起这么多学术性(有点儿太大了)的讨论(是讨论不是争论,喜欢讨论),增加了不少知识,也给我继续填坑增加了不少信心。有些东西正好是要往坑里填的,就没回复。填到坑里的都是砖头,目的自然是引玉了。

现在从汉字的简洁性与稳定性看科学性。

先说一个小故事。大家都知道,联合国有五种大会语言,(中、英、法、俄、西班牙,大会发言可以用),六种工作用语(前五种加上阿拉伯语)每一份文件,按规定都要翻译成六种文字。有一位华裔职员到散发文件处,指着最矮(想了半天,只有用这个“矮”字了,也可以用薄,好像不太形像)的一摞文件(文件是按不同文字的文本摆放的)说“请给我一本中文的(某文件)”。工作人员拿了一本给她同时很惊奇的说,你怎么知道那是中文?那位华裔职员一楞,她只是下意识的指着那摞书,并没有想为什么?回来细想,才发现,六种文字的文件并排摆在那里,最薄的准是汉字本。

这说明什么呢?说明同样的词汇量,汉语包含的信息量最大。在信息社会,这一点是不可忽视的优势。可以说省时省力,甚至节省能源。仅纸张就可以节省多少啊!

汉字是象形文字,自身就拥有丰富的信息量,很少有拼音文字能够象汉字这样用少量的字就可以表达大量的信息。这就是汉字简洁性的体现。

汉语是一种单音节语素为主的语言,一个汉字作为一个符号,既表示一个音节,又表示一个语素,还表示一个意思,汉字就成了形、音、义的结合体。这样,汉字就与汉语简短明确的优点相适应,使之与拼音文字相比,不仅无多词之难,且书写简明。无多词之难,是指单字可以组成词,不用造新字、新词(这方面以后还会往坑里填)。

还要指出的是,古汉语中的文言文是与口语有一定区别的书面语。它的最大特点就是简明扼要、言简意赅。极短的文字,往往包含极丰富的内容。这点我们都有体会,古文注释部分的文字往往比古文本身的文字要多的多。当然,当代再写文言文也无必要,经过五四运动期间以胡适为代表各位大师推动“白话文”,文言文已经是“明日黄花”了。不过,本人也挺喜欢读些文言文,真是言简意赅,令人赏心悦目。

好了,上面说的是汉字的简洁性,再说说汉字的稳定性。

开场白已经说了,汉字的历史源远流长。据考古学家及语言学家推断,早在六千年前,我国就开始有了文字。当然,比较成熟的文字出现在夏商之后,距今也有四千年之久。历经沧海桑田、千年变迁,汉字除了为适应社会发展而对自身进行的不断改进之外,一直表现出一脉相承的特性,它的本质从未发生过改变。这就是汉字的稳定性。

还是让我们用数字说明,再次引用列宁的话“如果你能用数字说明一个问题,就说明你对那个问题很了解了”(不是原话,大意了)。从古今用字情况看,中国古籍精典《易》、《书》、《诗》、《周礼》、《仪礼》、《礼记》、《春秋左传》、《春秋公羊传》、《春秋谷梁传》、《论语》、《孝经》、《尔雅》、《孟子》等《十三经》累计用字589283个,其中不重复的单字只有6544个。这基本上可以反映出古代用字的最高约数。

(别问我出处,还是想不起来。实际上也很简单,如果有毅力,在网上搜出这几本书,打开,点击“数字统计”就行了)。

现代,北京新华印刷厂等单位曾编辑了一本《汉字频度表》,根据86本书、104本期刊、7074篇文章的统计,共用字21629272字,不重复的单字也只有6335个。这基本上可以代表现代文章用字的最高约数。

从这两个材料的比较中,我们可以看出,古今汉字的实际用字的数量基本相当。足以说明汉字的稳定性。

顺便说一句,在本系列开场白中曾说过,在十几万片甲骨中,不重复的单字有四千六百多个,确认的只有一千七百多个,就是说,我们现在所使用的字和五千年前老祖宗使用的字相差无几。

正因为如此,一位致力于汉语音韵训诂研究的瑞典汉学家高本汉对汉字有过一段生动的论述。他说:一个中国人一旦掌握了它,他所读的一首诗无论是在基督时代(公元一世纪),或公元一千年以后,或是昨天写的,从语言学的观点上看,对他都是一样的。不管是什么时代写的,他都能够理解并欣赏它。可是在别的国家,书写文字随着口语的演变,在很少几个世纪中就可形成一种实际上完全新的文字。今天一个普通的英国人很少能看懂三、四百年前的本国文献。对于一个有中等以上文化水平的中国人来说,数千年的文献他都能了解。

斯言不谬,据说(只是据说,还望在英国的河友们考证)现代英国人已经很难看懂莎士比亚的原著了,但是一个上过学的中国人,看到“窈窕淑女,君子好逑”八个字,就算不知道如何解释,但肯定知道大概什么意思。

家园 小时候有过一套书,用画画的方式演绎汉字的历史,很有趣

简单来说,比如“女”字,作者先画古代跪姿的女子,然后是书写象形的“女”字,接着再慢慢变换其他的字体,最后变成现如今的“女”字。

是给儿童准备的连环画,基本上小孩看了都很有兴趣。好像是台湾作者(因为还有繁体字)

家园 如果当时有扫描就好了,这种资料还是很不错的
家园 应该还在,从小养成的习惯

每个学期的课本资料在寒暑假结束后分类,拿绳捆成一摞摞的码起来。

后来上大学之前,把我的书统统理了一遍给封存了,这套也在其中,回家可以翻拍。哈哈

家园 关于这篇的主题,其实是单个汉字所含信息量的问题,

好的地方,像你说的单个汉字包含的信息量大,自然打印文本看起来就少。

坏的地方,每个汉字的笔画数就要增加,换句话说,就是识字成本在增加。

在信息化时代这就意味着汉字的信息量过大,就意味着单个汉字需要使用双字节以上的编码方案,结果就是从gb2312发展到gb18030,到目前为止仍无法解决问题(历史上的常汉字可能在三万个以上,全部加起来六万个也不稀奇)。

对汉字的这个特点,是好是坏的很难定论。

http://ling.cuc.edu.cn/htliu/feng/01-01.htm

现在要做这项工作,非常简单,只有要语料库即可。比如说这个:

http://www.fanren8.com/simple/index.php?t20030.html

如果说现代汉字的数字化还算好办的话,古汉语则基本上就是灾难。极限熵根本没法计算。

另外,英国人如果不是半文盲的话,莎士比亚应该还可以看懂的……

家园 "简洁"的优势会逐渐消失

说明同样的词汇量,汉语包含的信息量最大。在信息社会,这一点是不可忽视的优势。

我怎么觉得正好相反呢? 如果信息载体是纸质材料, 单位符号熵值高的语言效率高(省纸). 但是随着信息载体的数字化, 对于同样数量的信息, 用不同人类语言进行存储和传输的开销应该趋于相同(编码充分优化).

家园 词汇的信息量不是越多越好。

  信息量过多会带来两个后果。要么就是一词多意,误解率高,要么就是所需词汇量太多,难记。

家园 言简意赅未必就一定是好事,言简意赅有时候跟中国文化

好像,“只可意会,不可言传”,这两句话在科学技术领域里是让人很郁闷的,问题都描述不清楚,还怎么交流?

听过些说法,意思是搞法律翻译的人在将外文翻译成中文时会比较头痛,估计也是这个意思。

汉字在描述情感和意境方面独树一帜,中国的诗词是无法翻译的,可在事情的描述和介绍方面,汉字应该还不完满,也许汉字还可以进化,也许中国人未来都要掌握双语了。

家园 文字本质应该是一样的,出现新鲜事物时会增加新字,

以前的中国古人可以增加新字,但古代的新事物确实不多了,在汉字增加到几万之后就完全满足了交流的需要。而西方拼音文字现在还在增加单词量,而现代汉语已经无法造新字了,只能采用词组合的方式,而词组的增多是不是代表着汉语要从单音节语言向多音节语言进化呢?

从语言的进化史来说,汉语就是甲骨文,太古老,只是因为古代中国的地理优势而使中文没有发生进化,而保留了到现在,未来也很难说会向什么方向发展,不过各语言的融合是必然的,总会有天下语言大同的一天。

家园 一直对这样的例子很好奇

可在事情的描述和介绍方面,汉字应该还不完满

介绍个例子吧

家园 “简洁”的优势不仅仅是存储和传输

信息化社会不仅仅是信息传播和存储手段的变化,还应该包括信息量的急剧扩大。

在信息化社会里,“简洁”的文字在使用上还是更有优势,比如同样一个文件,无论是纸印的还是电脑显示的,中文都是10页,英文可能都是20页,我用5分钟就能看完中文的,看完英文的可能就需要10分钟,也就是说单位时间内我可以获得更多的信息。

当然,这个速度也和个人对两种语言的掌握水平有关。不知道在国外的河友们有没有比较过自己看两种不同语言的速度,我自己没有这样的经验,不知道结论是什么。

家园 那真是太好了!等你翻拍传上来分享啊~
家园 很多啊

不知道你做什么工作的,如果是理工类和中国同行交流时不时蹦出几个外文专业词汇很常见啊。

不过这种情况应该和汉字关系不大,关键还是这些东西是在别的文化上衍生出来的

家园 这不是我需要的例子

我是想找一些可以证明汉语无法表述的情况。像那种专业词汇应该是翻译的问题,最简单的解决之道应该是造新字,以和一个外文专业词汇对应(这就是英语等语言对这种情况的解决方法吧),但这不可能。

但有一个取巧的方法,就是古字新意。成功的例子化学中有,我在下面也说过,羟、醛等字,自古就有,但译者赋予了其全新的含义,使古字重生。网络中的例子就是囧和槑,尤其是前者。

汉语中有数万的汉字几乎不会再使用,或很少用到,找古字的空间很大。

家园 拿现代汉字和单词比较不合适

在古文中倒是可以,那时候基本上一字一词,可是现在70%以上的词都是双声至四声,再拿汉字和英语单词比较就没有意义,因为两个汉字可以拼出无穷多个新词出来——总不能说这些词都是“词组”。

比较合适的比较应该是把汉字和英文的词根类比,因为二者都同时具备音形义,除了英文词根不能独立存在而汉字可以这一点外是完全可以类比的。而且英文的词根也是相对稳定的。

您先认定中文是没有进化的语言,多语言的融合是必然,那就没什么好说的了。但我觉得并非如此,中文本身一直都在进化,文言文就是上古的口语,到后来口语逐渐进化,书面用语缓慢跟进,最近演化出了今天用的白话文。

一字一词的时代,词汇量受字数的限制,不但词汇本身很难增长,而且还导致出现了许多偏字怪字,增大了学习的难度。而在现代,这个问题已经不存在,双声词的潜在容量直接是汉字数的平方,更何况还有三声和多声词,潜在容量完全可以认为是无限的;同时偏字怪字也基本上不需要了,看看咱们现在写的文章里,在除人名地名以外的场合,有多少常用汉字以外的字?

至于说所谓语言融合,我觉得未必是个趋势,当然,我们可以看到一些小的语言在消亡,国内的一些方言在消亡,但是,只要一种语言具备了一定的使用人数,它就会比较稳定地存在下去。就像物种一样,小的物种在消亡,但是很难想象有一天某种物种会取代世界上所有其他生物。

全看树展主题 · 分页首页 上页
/ 5
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河