五千年(敝帚自珍)

主题:【原创】为什么汉语是世界上最先进的语言(上) -- 冷酷的哲学

共:💬1516 🌺8640 🌵163
分页树展主题 · 全看首页 上页
/ 102
下页 末页
      • 家园 英语的词哪里来?

        还不是有词根么,单词也不是生造出来的。汉语的字实际就是词根,只不过一个个单字,组成词很规矩,也容易让人望文生义,缺点是每个字都能让人看得懂,专业问题让外行瞎呛呛就免不了了。

        • 家园 英语的词很多也是从词根加词缀来

          英语的词很多也是从词根加词缀来,不错,但是,英语1万个词汇量就算很大了,汉语1万个词汇量能干啥呢?虽然汉语常用汉字几千个足矣,但是光认字还远远不行,还需要组词。

          为什么1万个英语单词算多,而1万个汉语词汇算少呢?这里面难道不存在一个语言的本质差异吗?

          • 家园 汉语的特性导致中国人的词汇量比美国人大得多

            美国大学生平均词汇量也就一万一。

            中国大学生,词汇量至少40000。

          • 家园 1万个英语单词恐怕不算多

            以下是 top 10000 words的排序表

            外链出处

            虽然我不是每个都认识,但我感觉上面的词还是比较简单的。我还看过一个top 20000 words 的抽样部分。 我感觉英语大概要20000个词(不包括专业术语)才算词汇量大。

          • 家园 英语是字,汉语总共1万多个字,根本不能对付客观世界的概念

            元素周期表,每个元素必须用一个字,就耗去1%的可用汉字了。

            拼音文字的医学用字量达到恐怖的级别,对应的中文的医学词组同样恐怖,数量一样多。而中国传统中医就是用五行学说的5个字和它们的组合排列来指导治病,那么病的种类就是这些组合排列的数量吗?

            汉字基本不能用字进行独立运用,而只能用词组来定义概念,也要背诵不亚于拼音文字同样多的词组。而汉字词组本身就要比拼音文字占用更多的记忆空间。

            比如Gene,汉字要用基因这个词组;Antibiotics-抗菌素,Vitamin-维生素。每个拼音字对应的汉字基本上必须是词组,明显字长过大。这里涉及到一个通信编码效率的问题。

            这个编码效率问题发生在计算机里不过是地址长度问题,可以用升级计算机内存和硬件速度来对付。在人类大脑里就不是那么简单了,由于各民族大脑容量基本一致,大脑进化规定了大脑的容量,大脑硬件无法升级,大脑的内存和硬件速度基本是恒定的。那么使用中文的中国人同会使用拼音文字的中国人进行竞争就要吃亏了---只要看看会洋文的海龟中国人的科技地位就知道了,2蛋1星功臣们那个不会拼音洋文?

            另外象形文字依赖于模拟信号取读形式(横竖点撇等笔画空间位置是决定一个汉字的确定性的主要成分),人类思维是以数值信号运算形式,汉字在头脑里的模拟/数值编码转换对思维速度和信号失真度有没有影响?

            我对墨虎的编码器的看法还在研究之中,这是个有趣的方向。退一步讲,中国的传统绘画不能真实地反映外部世界,证明中国人的思维在象形文字的影响下,居然无法进行2D/3D转换

            徐悲鸿刘海粟这些在西方受过训练后的中国画画家立刻颠覆了中国传统画法,从此中国画就不是原来的模样了。他们靠了什么?

            人类的科技日新月异,新事物出现的数量以指数式发展,汉字的字数不够,结果靠汉字词组搭配对应于概念后,词组同样会变得同拼音文字一样越来越多和越来越长,以及词组搭配量最后会趋于饱和,目前科技中文里大量出现外文单字就是找不到适当的中文词组或嫌中文词组太长或拗口的原因--反过来外文文献从来不借用中文单字或词组,证明他们不缺新字。

            汉字扩张依赖于词组,而新词组的如何定义没有规则,必须有文字委员会来决定。创新科研就此会不会受到影响?

            申农的通信理论到底能不能解决不同语言的通信效率问题进而解决思维问题?9.6比特和4.0比特信息熵的两种文字之间的差别没有任何意义?

            • 家园 一看前贴回复的语气就猜到是pbs大湿

              诚不我欺啊

            • 家园 你的说法有偷梁换柱之嫌

              “这个编码效率问题发生在计算机里不过是地址长度问题,可以用升级计算机内存和硬件速度来对付。——这里说的是电脑的优势

              在人类大脑里就不是那么简单了,由于各民族大脑容量基本一致,大脑进化规定了大脑的容量,大脑硬件无法升级,大脑的内存和硬件速度基本是恒定的。——这里是人脑的劣势(难道用拼音文字的人就没有人脑上的劣势?)

              那么使用中文的中国人同会使用拼音文字的中国人进行竞争就要吃亏了”——这里是拿人脑比人脑,后一个其实是人脑+电脑,结果你就直接得出结论,公平吗?

            • 家园 中国传统绘画注重抽象,西方绘画更注重写实

              写实容易抽象难。就好比学数字,一开始学一个手指,两个手指;一颗石头,两颗石头;一个人,两个人,之后才抽象出一,二来。

              如果从艺术表现的角度来看,近现代西方非常出名的反而是接近中国传统绘画所体现的抽象派,比如毕加索。

              如果从绘画的意图来看,中国古代的传统绘画,主要是作为一种艺术形式的表达,而西方绘画更多的是作为一种记录,作品对象多为人物和具体的物品。

              至于2D/3D的转换,你可以想想中国古代的很多大型建筑是怎么建造的,当然,那些图纸是不会被当作绘画来看待的。

            • 家园 这不是赤裸裸的否认现实吗?

              现在的中文科技界 不就正是用三四千个汉字为基础而进行的吗?

              中文科技界的水平固然和世界一流相差甚远,但也属于门类大致齐全而水平一般的范畴,至少跟着国外前沿做点模仿工作是不成问题的。只要有了英文的概念,弄些还凑合的译名其实是很容易的事。怎么可能是“根本不能对付客观世界的概念”?我研究的东西都是极端晦涩不食人间烟火的玩意儿,但要想用汉语来描述概念完全可以,只不过因为国内研究的人太少 很多东西没有翻译成汉语的必要罢了。你不至于把 “没有译为汉语” 等同于 “无法译为汉语”吧。

              你写了不少关于汉语的贴,一直有这问题。不管你的理论再唬人,如果你赤裸裸地否认现实,就无法站住脚。

            • 家园 "陈省身, 不能从《易经》出发研究现代数学"

              I kind of agree with 墨虎 (his post some where") that we chinese are hugely smart, ...but like everybody, we can't fall behind the next "great thing".

              陈省身, 楊振寧, gauge field theory, math and phyiscs, and the consequent QCD, we are almost at the limit of human mind, really cutting edge

              --------------quoted---------

              http://blog.sciencenet.cn/home.php?mod=space&uid=3377&do=blog&id=452745

              数学界的玻尔——陈省身 精选

              已有 6590 次阅读2011-6-8 00:01|个人分类:拾穗记|系统分类:人物纪事|关键词:陈省身,几何,物理,玻尔

              端午,岳麓山大雨,宅。

              读《陈省身文选》(科学出版社,1991) (以下简称《文选》),《数学与数学人第一辑——纪念陈省身先生文集》(浙江大学出版社,2006) (以下简称《纪陈》),等。很容易发现如下一个事实:在创造历史、提携后辈、团结学界、形成学派等等方面,陈省身先生和量子论的开山鼻祖尼尔斯.玻尔,有诸多共同点。不过把二者做一个详细比较,风格比较不那么博客。不如把我印象深刻的几处摘录一下,分门别类,记有十点。

              一,同时站在Blaschke,Cartan和Weil的肩膀上

              陈先生的求学过程中,经历了两次飞跃一般的成长。这两个飞跃,陈先生一生中多次提到。

              飞跃之一:1934年陈先生果然离开清华,离开“投影微分几何”这个领域,进入德国汉堡大学,师从Blaschke,两年后获博士学位。

              飞跃之二:1936年师从Cartan,时间虽仅十个月,但和Cartan密切接触,“十个月决全力应付每两个星期的Cartan会见”(《文选》,P.21),“紧张异常,收获亦超常。”(《纪陈》,P.176) “事后看来,我想这是一个很正确的决定,因为Cartan的工作当时知道的人不多,我最得意的地方就是很早进这方面,熟悉Cartan的工作,因此我后来能够应用他的发展方向继续做一些贡献。”(《文选》,P.54)

              这两次飞跃之后,数学于陈先生几如进无人之境。“跃上葱茏四百旋。冷眼向洋看世界,热风吹雨洒江天。云横九派浮黄鹤,浪下三吴起白烟。陶令不知何处去,桃花源里可耕田?”

              “那时Weil和Allendoerfer合作证明了高斯-博内公式,但是Weil坚信,一定有内蕴证明而不需要复杂的每次必须把一片片流形嵌入到欧式空间中。陈先生把这个问题记在心头,不出两个礼拜就得到了内蕴证明的主要思路,包括用不可思议的计算显示出高斯-博内公式只是主丛上的一个恰当形式。”

              ——伍鸿熙,《纪陈》 P. 97

              “陈对Gauss--Bonett公式的证明,与1942年Allendoerfer和我效仿Weyl等作者的步骤给出的一个证明相比较,不难体会到其中意义的所在。......,而陈的证明第一次明确的用到内蕴丛,即长度为1的切向量丛,一切阐明了全部问题。”

              ——A. Weil,《纪陈》 P.7

              二,评价四色定理,Erdos问题和数论

              四色问题: “‘对于这一问题的兴趣是由于它的困难,其重要性实不及其他许多未解决的基本问题。’”“这一预见被多年后的事实所证明。实际上,‘四色问题’的研究并未给数学带来重大的新思想与新方法。”

              ——王元,《纪陈》 P. 28

              “思考Erdos的问题是很危险,因为这些非常有趣的问题可以花费你几个星期的时间,然后却什么也得不到。在我研究此问题的时候,Andre Weil对我说:‘不要做这些了。’”

              ——陈省身,《纪陈》 P. 131

              “整数论固然美丽,代数数论才是堂奥。它和代数几何不可分割。”

              ——陈省身,《文选》 P. 309

              三,“一位轻巧驾驭微分的魔术师”

              “陈先生的拿手好戏是用活动标架及外微分,我也曾学步,用外微分d一下,外微分很容易,但做完之后就惆怅了。”

              ——郑绍远. 《纪陈》. P. 120

              “和许多人一样,我对陈的‘令P为一点,dp是它的微分’也是绞尽了脑汁,到后来才懂的这种记号对于恒等映射及其微分是多么的方便。”

              ——I.Singer,《纪陈》.P.44

              “他是一位魔术师,时而选取M上的一点P,时而轻巧的驾驭dp-我们要华多少年才能掌握这个技巧。”

              ——R. Bott,《纪陈》.P. 46

              “他的一个令人印象深刻的诠释是:‘切向量是男的,微分形式是女的。所以,当然微分形式更加能干’”。

              ——B. Lawson. 《纪陈》. P. 75;——胡森,《纪陈》. P. 194

              四,一个人二十岁一定要知道自己的短处并回避之

              1926年,陈先生15岁入南开大学,开始时选修了一些化学课程。“初进大学时......。我的实验经验,差不多是没有的,......。当天指定的工作是吹玻璃管,我自然弄不好。幸亏化学系有一位职员在实验室,在将结束实验前,代我吹了一些。我拿着玻璃管觉得还很热,就用冷水一冲,于是前功尽弃。”

              ——陈省身,《文选》 P. 28

              五,“做学问一定要跟有学问的人在一起”

              “我毕业时得到很多学校的聘书,当然都是由于先生的推荐。先生认为普林斯顿研究院才是做学问最佳的地方,虽然薪酬比其他地方少了一半,我毫不犹豫的接受了先生的建议。我记得先生对我说:‘做学问一定要跟有学问的人在一起’,这句话使我一身受用。”

              ——丘成桐,《纪陈》P.108

              六,为了好学生的前程不拘一格

              “陈省身先生特别看重别人身上的能力和潜力,而不是弱点。由此产生的一个结果就是,他周围的人们往往能够比在别人处获得更多的发展机会。一个很好的例子就是Bob Uomini的故事。Bob是伯克利的本科生,曾经上过陈省身先生的课,他非常的想读研究生,但遭到了拒绝。他求助于陈省身,陈先生认为这位学生数学学的不差,于是写信为他求情获准。Bob最后在我的指导下获得博士学位。”

              后来这位学生中千万美元彩票,回报伯克利,出巨资设立陈省身讲座教席,建立数学科学研究所(MSRI)等等,以表示对陈省身先生的敬意。

              ——B. Lawson,《纪陈》P.75;——滕楚莲,P. 149;——D. Eisenbud,P. 210

              七,“To be,or not to be”

              Chern-Simons 示性类中的Simons后来离开了数学界转入了金融,2003年华尔街投资经理人薪水排行榜高居第三。当他处于学术生涯顶峰的时候决定离开数学界。陈省身对Simons的离去的评价是:

              “嗯,反正Simons不是David Hilbert。”

              ——J. Simons,《纪陈》 P. 67

              关于数学研究的动机,“陈先生希望我更加现实一些,他说他倾向于同意G. H. Hardy的观点,即关键的动力来自渴望得到同事们的尊敬和在竞争中胜出的感觉。然而,他也承认一个伟大的灵魂,例如苏格拉底,可以处于一种不同的目的。”

              ——H. Garland,《纪陈》 P. 80

              八,不能从《易经》出发研究现代数学

              “陈很少生气发火,以至于他发一次火就会引人注意。我记得一个小小的例子:他因有人想将一篇根据《易经》所写的文章发表在1988年美国数学会的整体分析暑期学术年会的文集上而大为发火。作为一名有自尊心的中国知识分子,他认为这是一种典型的倒退。”

              ——F. B. Browder,《纪陈》 P. 50

              九,科学在中国还没有生根

              “讲得过分一点,甚至可以说中国古代没有纯粹数学,都是应用数学。这是中国古代科学的一个缺点,这个缺点到现在还存在。应用当然很重要,但是许多科学领域的基本发现都在于基础科学。”

              ——陈省身,《纪陈》 P. 188

              “人往往从两个方面思考自己在世界上的位置:人和自然的关系以及人和人之间的关系。西方多考虑人和自然的关系,而中国人多考虑人与人之间的关系。西方人讲人与自然的关系,人要改造自然,就要求社会和自然不断地变化、进步,这样就造成了社会的不稳定。中国的孔子、儒家主要讲人际关系、讲稳定,不愿讲自然的基本规律以及人和自然的关系,想不到,也不鼓励讨论这些问题。所以在科学、哲学方面的发展不多,即使有,也多在应用方面。

              ——陈省身,《纪陈》 P. 183

              “科学在中国还没有生根。” 四十年后的今天,陈先生仍对我们讲这句话。

              ——陈省身,《纪陈》 P. 189

              “我们需要一个新的信仰,光靠科学是不够的。”

              ——陈省身,《纪陈》 P. 183

              十,中国何时才能成为一个数学大国?

              “假以时日。”

              ——陈省身,《纪陈》 P. 182

            • 家园 "维纳认为人类的学习过程就是克服通信过程中的随机噪声"

              1. yours following was well written

              http://www.ccthere.com/article/3657960

              comment:

              人工智能 is to speed up social "学习过程",

              量子化 social 語言場, with help of goog and etc;

              current social 語言場, high entropy/low information, and everybody has to pay huge premium to wall street, and tg, etc, to some extend; ws and tg are basically some kind of information brokers in a messy social 語言場, like church in the past, and in a high entropy social 語言場, "order" has to be maintained, and everybody has to pay dearly for such an order;

              with social 語言場 "量子化", like semi conductor industry's spectacular rise created by qm's 声子 model, "information" will become "real time" and cheaply available, "ws" and tg alike, will be still there, but with much less premium.

              2. copied from somewhere

              从信息熵角度看中文信息产业的发展

              PHILIP ZHANG

              --------------------------------------------------------------------------------

              前些时候,一些报导说,在中国软件市场,八十年代是中文操作系统竞争,九十年代是中文输入法竞争,从现在起,是办公室套件竞争。这个竞争线条,是按照微软公司中文产品的发展来描绘的:系统和基础科学技术的标准问题,微软公司已经解决,剩下的是应用软件市场开发问题了。

              然而,仔细观察一下微软公司的中文软件系列,就能发现基础科学技术方面的错误(不是打打补丁就能修补的臭虫)。这些错误对中国的软件市场、语言文字工作、文化教育事业和有关科研方面造成的误导相当严重,以至于指明这些错误和探讨真理都成了非常困难的事情。如果把中文软件工业比喻作一棵参天大树,那么,微软公司中文系统的错误就出在树根上:微软公司在设计制作中文软件的时候,忽略了信息产业基础建设的核心问题 -- 信息熵。“千年虫”是基础建设过失造成的“定时炸弹”。微软公司产品的系统错误是“定量炸弹”,没有达到一定的程度,很难体会到这颗炸弹对中文信息产业的潜在威胁有多么严重。而达到一定程度的时候,问题可能已经积重难反,损失可能已经造成而难以弥补,中文的信息产业可能不得走回头路。换句话说,尽管微软公司产品的发展线条不能代表中文信息产业发展的实际和需要,但是,如果不搞好基础建设,那么,中文信息产业和软件市场最后还得回到微软公司那里去。

              中国早在七十年代就完成了中文信息熵基础工作,八十年代基本上完成了大规模的中文信息熵研究工作。这些,本来应该是中文软件工业的科学技术基础。然而,面临信息时代挑战,一些报刊杂志望文生义地使用信息论的一些术语词汇宣扬“汉字优越”。这些年,微软公司的中文系统被误认为“标准”,几乎成了一种迷信,迫使许多中文软件厂商为幸存而奔忙,无法从事基本建设。这些阻碍了信息科学的基础建设。

              这篇文章试图破除对微软的迷信,说明信息熵对中文信息产业和中文软件发展的重要意义,同时,希望中文软件厂商能更多过问科学技术的基础问题,把微软公司误导的中文软件市场转移到正确的轨道上来,也希望中国政府有关部门在制定软件工业标准的时候,要特别注意信息产业的基础建设标准的问题。

              【信息熵的来历、基本概念和方法】

              美国的信息产业之所以能有今天的称雄世界的实力和接连不断地产生新的技术产品,完全是跟长期基础建设分不开的。这个基础建设的最重要的内容,是如何使用信息科学技术的基本原理和方法:信息熵。

              第二次世界大战期间,美国为了提高信息储存和传递的效率,发明了多种新的编码方法,奠定了现代信息科学技术的基础。战争结束后,这些方法得到了飞跃发展。在这些方法当中,科学家闪农和霍夫曼提出的信息熵和数据压缩的理论和方法最能代表现代信息学的基本概念。

              这里用闪农最喜欢用的猜谜方法来说明信息熵的基本概念。假如有:

              我们大__都喜__使__计__机来管__数__。

              不用很多努力,就可以猜出完整的句子:

              我们大家都喜欢使用计算机来管理数据。

              闪农指出,能猜出来的字符不运载信息,而不能猜出来的字符运载信息。空格所隐藏的字符属于多余度字符,不用那些字符也能运载该句子的全部信息。多余度大小对信息阅读和检错抗错有重要的意义。比如:

              我__大________使______机来____数__。

              就很难猜出完整的句子,在信息传递的时候,也很难做检错和抗错。因此,保留一定的多余度(或冗余度)是非常重要的。

              信息熵方法的基本目的,是找出某种符号系统的信息量和多余度之间的关系,以便能用最小的成本和消耗来实现最高效率的数据储存、管理和传递。

              信息熵是数学方法和语言文字学的结合,基本计算公式是:

              H = - LOG 2(P)

              其中:H 表示信息熵,P 表示某种语言文字的字符出现的概率,LOG 2是以二为底的对数,用的是二进制,因而,信息熵的单位是比特(BIT,即二进制的0和1)。

              五十年代,现代信息论介绍到中国。七十年代,中国科学家完成了中文汉字字符信息熵的初步计算工作,八十年代又做了更完整的计算。他们的基本方法是:逐渐扩大汉字容量,根据随机试验结果的各种概率,使用公式

              H = - E(n, r=1) LOG (2) P (r)

              来计算熵值H。公式中,H 是静态信息熵,E(n, r=1)是从r 到n 个结果的和,LOG(2)是以2为底的对数,P(r)是第r 个结果的概率。这个公式是基本公式的一般静态方法,求到的数值是静态平均信息熵。中国科学家冯志伟等人的对中文字符信息熵计算的结果是:

              汉字容量:1 1052 1830 4912 5104 5211 12370

              信息熵值:0 7.53 9.52 9.61 9.63 9.64 9.65

              随着汉字容量增大,信息熵的增加趋缓;汉字增加到12370以后,不再使信息熵有明显的增加。通过数理语言学中著名的齐普夫定律(ZIPF'S LAW)核算,汉字的容量极限是12366个汉字,汉字静态平均信息熵的值是9.65比特,或者说,汉字的平均信息量是9.65比特(见冯志伟提出的“汉字容量极限定律”)。这是当今世界上信息量最大的文字符号系统。下面是联合国五种工作语言文字的信息熵比较:

              法文: 3.98比特

              西班牙文:4.01比特

              英文: 4.03比特

              俄文: 4.35比特

              中文: 9.65比特

              可以看出,拼音文字的信息熵小,差别不大。汉字的信息量最大,因而在信息管理和传递的时候处于最不利的地位。

              【信息熵的意义:数据储存】

              信息熵的直接意义是为信息工程设计提供基本的科学技术依据。就此来说,静态平均信息熵是基础的基础。例如,在为中文数据管理和传递设计硬件和软件的时候,首先要根据汉字静态平均信息熵决定如何储存和使用多大的空间来储存汉字字符。汉字的平均信息熵是9.65比特,每个汉字字符需要两个字节(一个字节等于8 比特)。汉字总量大约有五万六千个,需要十多万个字节才能保证中文信息的储存和传递有足够的待用字符。目前的中文字库包括二万多个汉字字符,占用将近4.5万个字节。尽管这个字库还没有包括所有的汉字字符,却已经是世界上消耗最大和成本最高的字符系统了。此外,汉字还在不断增加,每增加一个汉字就等于增加一个新的字符,需要增加一个字节来储存。这意味着汉字字符方式很难为中文信息管理建立长期稳定和规模合理的数据标准。

              英文等拼音文字的平均信息熵大都4.5个比特以下,每个字符只占用一个字节。例如英文,一共有26个字母字符,大小写和各种标点符号都算上,只要90字节左右就够了,不到中文字符消耗的千分之一。此外,在增加新的词汇的时候,这些拼音文字不需要增加新的字符,也不需要增加新的字节消耗,因而能够建立长期稳定和规模合理的数据标准。这是英文等拼音文字方式更适合信息数据管理的基本技术因素。

              【信息熵的意义:数据管理】

              信息熵大小的另一个重要意义是表明某种字符系统的效率。一般说来,文字的字符信息熵越大,原始数据输入的工作量越小,工作效率就越低。

              这里用二进制和十进制的数字信息管理说明。二进制只有两个符号,0和1,是规模最小和非常单一稳定的标准,可原始数据输入的整体工作量也是最大的。比如99这个数,二进制输入是“1100011”,要七个字符。用十进制,输入是“99”,两个字符。可是,十进制需要十个数字符号做标准,比二进制的规模大得多。在做数据管理的时候,二进制的功能强,灵活,而且非常简洁。十进制的信息量比二进制的大,可作业效率却比二进制的低得多。然而,二进制的多余度最小,人阅读起来很困难。十进制的多余度大,适合人类阅读。因此,机器用二进制作业,人用十进制阅读。

              这个对比说明,使用信息量大的字符系统,原始数据输入工作量可以降得很低,其代价是总体效率大大降低。如果信息量过大,那么,该字符系统就有可能仅仅用来作数据储存和检索,而不能用来作数据标准。

              不同信息量的字符系统可能有近似的多余度。据有关专家计算,中文和英文等拼音文字的多余度基本接近。计算方法是:

              R = 1 - H(LMT)/H(0)

              其中,R是多余度,H(LMT)是极限熵,H(0)是平均最大熵。由此计算,汉字的多余度是56%到74%,平均值是65%左右。美国专家BURTON和LICKLIDER 根据闪农的试验方法,算出英文的多余度在67%到80%,平均为73%左右。中国信息学和语言文字学专家冯志伟和尹斌庸等人指出:多余度高使语言文字精密,太高了就会造成学习和使用的烦琐浪费;中文和英文等拼音文字的多余度相差不大,说明它们的精密度相差不大,因而不存在语素方面的孰优孰劣的问题。可见,造成汉字方式整体效率低的基本因素不是多余度,而是信息熵。这才是问题的核心。

              【信息熵的意义:数据传递】

              计算机信息传递有两种方式:并联和串联。并联方式是:一个字节的八个比特同时传递,好像八座门同时打开,八个人同时进出。并联多用在小范围和短距离的数据传递,例如:计算机和印刷机的联接,一个办公室或一个办公楼内部的计算机联网(LAN),等等。并联的好处是速度快,问题是成本高。比如,在两个城市或两个国家之间用并联,那么,光是电缆的成本就高得很,更不要说有关的设施和维护了。

              串联的方式的成本比并联的要低的多,因而,在大范围和长距离的条件下作数据传递,大都用串联。国际网络用的就是串联(一些用户或网站自己可能用并联)方式传递数据。

              串联传递的时候,字符的字节是按照一个个比特来传递的,即一连串的0和1,实现过程是一连串的开关电路。通讯收发到一定比特数量,必须确定一个字节是否传递完毕,以便将一连串的0 和1 转换为人可以阅读的字符。

              英文等拼音文字的的平均信息熵小于4.5比特,一个字节有八个比特,因此,可以将剩余的比特用来作奇偶检验和抗错。中文的汉字方式需要两个字节,在建立字库的时候,两个字节的比特全都用满了,没有剩余的比特来作奇偶检验和抗错。这是中文网络通讯中很容易出现坏码(不是乱码)的基本原因之一。乱码没有编码损失,可以通过兼容来避免乱码,或者通过字节重新组合来挽救信息损失;而坏码是编码本身的损失,消减甚至丧失了兼容和字节重组的可能,很难挽救信息损失,即便能做些弥补,成本也是非常高的。

              为了满足多种语言文字网络通讯和防止坏码的需要,国际网络(如英特网)广泛采用MIME方式传递信息(MIME是Multipurpose Internet Mail Extensions的简称)。MIME方式的基本工作原理是:按照一定的进制,将所有的字符字节转换成国际通用ASCII 纯文本字符(每个字符用7个比特),以便能保证传递数据的兼容无损。

              MIME方法的核心是使用七比特数据方式(7 BIT DATA方式,纯文本字符方式)传递信息,剩下的一个比特作奇偶检验。这种方式通用于所有的计算机和网络渠道。英文等信息熵小的拼音文字本身就使用纯文本字符,不需要MIME转换。中文字符信息熵大,没有MIME转换就很容易出现乱码或坏码。转换是有成本消耗的,而汉字方式的成本消耗是世界上最大的。

              【超级计算机能提高汉字方式的效率吗?】

              随着计算机的速度和储存能力等个方面的提高,中文信息管理和传递的困难是否会自动得到解决呢?不一定。困难是汉字方式本身的问题。例如,即便我们用四个字节来作国际标准字符集(国际标准组织IOS 已经多次提出这个方案),使每个汉字有足够的比特剩余来作奇偶检验和特性参数,然而,数据全面管理和传递的效率问题依然存在。原因是:

              (一)中文数据的文字方式决定了标准的多重性和规模过大,而且,只要汉字还再增加,它的字符集就是不稳定的。不管一个字符用多少字节,也不管计算机的储存容量有多大,这样的字符集做数据储存和检索还可以,做全面的数据管理就总是有严重问题。

              (二)汉字输入输出的字符仍然需要多次转换,还是高成本和高消耗的。现有的中文输入方法跟语言文字的标准规范之间的差别依然存在,人的操作和学习等效率还是没有得到提高。电笔输入作鉴别(如签字)的效果很好,但是,如果数据规模大,效率就不如键盘操作。声音输入作指令和小规模数据输入还可以,做大规模数据输入,就会因为劳动强度太大而不现实。更重要的是,键盘操作基本上不影响思维,而声音操作的脑力消耗比键盘操作的大得多,严重地妨碍思维。微软公司说,它的多媒体声音输入可以让中文输入更轻松愉快,那是商业夸张。电笔输入和声音输入是非常重要的技术,但是,这些技术突破并不能解决中文的效率问题。

              (三)拼音文字的每个字符只要一个字节,现在用两个字节的联码(UNICODE),已经有一个字节是多余的,在做数据处理和传递的时候,为此多支出了一倍的成本(包括处理多余字节的程序消耗)。这些多余成本基本是为了迁就中文等亚洲文字的需要,对拼音文字本身来说,基本上没有意义。如果用四个字节,就有三个字节是多余的,拼音文字就要多支出三倍的成本。在可见将来,各方面的发展能否抵消这些多余成本,还不清楚。使用拼音文字的各个国家是否乐意为了中国汉字的需要而继续牺牲自己的利益来年复一年地支出更多和毫无回收可能的成本,也不清楚。

              (四)通讯传递中,汉字字符由双字节变成了四字节,使原来的成本和消耗增加了一倍,平衡或抵消了字节增加和速度提高所带来的效益。

              中文效率的问题不是出在计算机方面,因而,不管计算机技术怎么发展,中文的低效率问题就依然存在。再说,计算机技术发展,所有的语言文字都得益,相比之下,原来高效率的文字方式的效率仍然是高效率的,汉字方式仍然难于跟拼音文字方式的效率相媲美。

              【信息熵:鉴别微软公司中文产品的有力工具】

              信息学的基本方法说明,把多余度规模控制在合理范围,是提高字符运行效率和计算机编码的中心课题。可是,将近二十年来,中文软件的发展基本倾向是不断地为输入方法加码和编制新码,只考虑市场利益,根本不考虑信息科学技术的根本问题和基本要求。微软公司搞的“智能”等输入方法是一个突出代表。例如,该公司说,使用它的“智能”输入方法,只要打出一个或数个汉字的编码,就能显示出整个词组或句子。微软公司把这样的方法称为“世界级”的高科技。其实,这种方法不外乎两条:

              (一)用数理统计方法列出字符组合的可能,把这些可能储存起来,根据用户打出的特定字符来寻找和显示这些可能。

              (二)用数理统计方法归纳字词之间的联系的可能和频率,建立这些可能和频率的索引,储存起来,根据用户击键的先后次序,寻找索引,再根据索引调度字符串,显示出来。

              这些方法,可以用“对号入座”来比喻。早在八十年代初期,许多英文文软件厂商就已经使用这些方法了,厂商可以预存各种可能,用户也能根据自己的需要来规定如何“对号入座”调动字符。然而,那个时候,各个厂商从来没有把这些方法称作“智能”技术。基本考虑是:(一)按照信息科学技术的基本原理来保证信息熵和多余度之间的合理比例关系,从而能保证英文信息有长期稳定的数据管理标准。(二)严格说来,“智能”技术是思维技术,即根据已有知识作出新东西,而“对号入座”是重复预存规定的机械动作,并不产生新东西。

              在英文市场,微软公司没有把“对号入座”宣扬成“智能”方法,否则,就会引起大家的笑话。然而,微软公司却在中国把“对号入座”的方法称作“智能”高科技来到处兜售。为此,该公司用了许多数学方法证明它的方法有多么先进,例如,用统计方法和树理论证明“智能”和“联想”输入法,用模糊数学证明词句联系和检测,等等。对没有学过有关数学方法和信息熵理论的人来说,那些新鲜词汇的确挺吓唬人,有可能为之蒙蔽,以为微软公司的方法可能真的是“世界级”的高科技。然而,如果了解了有关原理和方法,就能看出,微软公司的作法,不过是把早已有的“对号入座”方法冠以新的时髦词汇,对中文效率的提高并没有任何本质上的积极贡献。如果那些“对号入座”真的是“世界级”的高科技的话,那么,该公司为什么不把它用到英文市场呢?

              中文的信息熵本来就大,已经给信息管理带来不利条件。微软公司的方法不但对中文效率的改善提高毫无积极意义,而且还增加了数据管理的消耗和成本,甚至破坏了语言文字和信息管理的基本标准和规范。不过,微软公司最关心的是中国市场的利润,而不是中文信息科学技术的前途。现有的汉字方式对微软公司是非常有利的,该公司自然要它为眼中的“汉字文化传统”吹捧,甚至还把这种谬论和方法冠以“中文信息处理的重大技术突破”和“世界级”高科技产品的美名。这是愚弄人。事实最能说服人。让我们来看一个例子。下面的段落从微软公司的中文新闻报告(一九九九年三月四日)中直接摘录的:

              “中文处理能力有重大突破 Office 2000在中文处理方面也有重大突破。Office 2000中文版 集成了最新的微软拼音输入法2.0并首次引进中文的语法校对和拼 写检查。使得用户可以使用使用鼠标而无须其他设备来实现中文手 写输入;并成功实现了基于Unicode的繁体中文简体中文之间的相互 转换,为全球范围炎黄子孙进行中文交流提供了更有力的工具;汉 语拼音的注音功能则为中文基础教育提供了方便。”

              受过基础语文教育的人都能看到,这段话有不少基本常识的错误。例如:第二句里的“集成了”应该是“汇集了”。“使得用户可以使用使用……”一句当中,“使用”一词重复。这个句子没有主语,标点用了分号,使后面的并列句全都成了没有主语的错句,同时,有的并列句在分号后面用“并”,后来的又不用连接词了。在“并成功实现了……相互转换”一句中,“繁体中文”与“简体中文”中间少了“和”字,而“提供了更有力的工具”的“更”字,事先没有列出比较对象,是多余的。这些都不符合中文语法的基本常识和规范。从写作方面来看,这段话写得很别扭,阅读起来不通顺,很难上口朗读。

              这么短短的一段新闻报导,错误如此之多,微软公司的所谓“中文处理能力的重大突破”到底是什么?它的那些数理统计、树理论和模糊数学等等方法证明的高科技,使用的结果就是这个样子?这就是它的“世界级”的“智能”技术水平吗?

              从信息论的角度看,微软公司中文软件系列的“智能”方法造成了不少误导作用:它破坏了中文多余度的合理比例和相对稳定,违反了国家颁布的语言文字的基本规范,加大了中文语言文字学习和使用的差距。不管微软公司用了多少时髦词汇来描述它的中文软件产品,违背信息论基本原理和方法的错误依然存在,对中文信息产业的“定量炸弹”的威胁依然存在。

              【基础建设是中文信息产业的根本】

              从以上阐述可以看出,汉字信息量大,是中文信息管理和传递成本高、消耗大和效率低的基本原因。汉字为中国文明的延续发展发挥了巨大的历史作用。今天,汉字方式是阻碍中文信息科学技术发展的头号困难因素。中国可以在信息工业的机械设计和制作方面赶上世界先进水平,然而,如果不能改善中文的信息熵和多余度之间的关系,那么,中国的信息产业的整体就总是低效率的,就总得跟着别人后面走,难免挨打。一些美国人担心中国发展计算机和导弹技术会造成“中国威胁”,那的确是夸张了。即便把美国所有的计算机技术和导弹技术都交给中国,只要中国还是按照汉字方式来操作,那么,在计算机和导弹技术方面,中国就总是处于不利地位,总是赶不上美国。中国火箭导弹技术专家钱学森等人早就说过:如何提高中文的效率是关系到国家安全的大事情。

              许多从事中文信息熵研究的科学家们说:中国失去了整整一个打字机时代(工业革命),对中国的科学技术和文化教育带来了不利影响。在计算机信息时代,汉字方式和现代科学技术矛盾更加深化了,其中最大的问题是如何利用信息熵的方法来优化中文数据的管理和传递,即文字方式和书写工具(例如计算机)的最优结合。面对日益强盛的信息工业挑战,中国科学家是有充份准备的。如果中国能按照原来准备好了的方向发展,那么,中国的信息产业(包括软件产业)就会避免许多弯路,微软公司对中国软件市场的误导作用也不会那么严重。

              然而,这些年来,中国有些报刊杂志(其中包括某些官方大报刊)望文生义,以为“汉字信息量大”是好事情,把它作为鼓吹“汉字优越”论的依据,甚至把这些违背科学技术基本原理的谬论贴上爱国主义的政治标签。这种宣传极大地误导了人们对信息科学技术的理解。这不是在搞科教兴国,而是在加重中国信息科学技术发展所面临的困难,特别是加重了政治和文化方面的困难。信息科学技术跟语言文字息息相关,它的发展自然对许多国家的民族传统文化提出了挑战,其中包括对美国一类的信息工业大国的挑战。中国的历史悠长,文字方式独特,受到的挑战自然就最为严重。面对科学技术的挑战,就要用科学技术的发展来迎战,用极端民族主义的作法,最后总是失败,传统文化最后也还是保不住。中国主席江泽民多次提出,中国需要文艺复兴。这个号召有重大的历史意义,指明了中国民族传统文化延续和发展的唯一出路。文艺复兴的一个基本内容是文字方式必须符合时代发展的需要。“汉字优越论”所提倡的不是中国的文艺复兴,而是在鼓吹文艺衰退。

              中国政府可以通过法律手段和标准专利等手段来为国产软件和信息产业的发展提供环境保护,民间可以用文学作品等各种方式抵制外来货。然而,“发展才是硬道理。”中文软件和中文信息产业到底能不能在日益全球化的竞争中幸存,还得看自己的科学技术的基础建设搞得怎么样。就目前和可见将来的状况来说,中文信息产业基础建设的核心课题,就是如何利用信息熵的基本原理和方法来提高中文的效率。

              【作者补充】

              《光明日报》(99/9/8)把我的这篇文章作为开头,开始组织有关中文改革的专栏讨论。我衷心希望这个讨论能搞成真正的科学技术的讨论,而不是极端民族主义情绪的宣泄或为某种商业利益服务的争论。看了《光明日报》发表的讨论文章,有所感,附上供读者参考。

              中文改革是为中国文化造福,不是抛弃中国文化。

              雷海涛的文章《古老汉字绝非中国信息化的障碍》(《光明日报》99/9/8)有些提法不妥。例如,作者说:“电脑的字库里预备了常用汉字(包括次常用汉字),应该说已经基本够用。不过,这和英文的26个字母相比还是一个非常大的数量级。……就此有的人说,在电脑时代汉字是中国进入信息时代的瓶颈,甚至有可能使汉字这一古老的文化载体,成为阻挠今日中国走向现代化的难关,因而应该抛弃汉字,而使用拼音文字。这些说法无疑都是武断的,没有进行认真研究而做出的结论。”

              常用字数量可以用来编写语文教材和工具书,也可以用来编制应用软件和制造电子字典或词典,甚至可以用来作语言文字的国家标准和规范,但是,常用字数量至多是信息科学技术中做统计研究的一个数据,而不是信息科学技术的基础依据。例如,当前多数计算机和网络都使用UNICODE(联码,基本包括所有现代语言文字字符的编码)。UNICODE 的根据不是各种语言文字的常用字(词)覆盖面,而是文字字符的信息熵比特数值。在UNICODE 范围内,可以编制2500字的汉字字库,也可以编制25000字的汉字字库。不管字库有多少字,汉字信息熵决定了每个汉字字符都需要两个字节。这是所有中文计算机硬件和软件设计的基本依据。在做信息熵计算的时候,不能只考虑常用字符,而是要使用字符的“容量极限定律”。况且,计算机做数据管理的根据是字符书写方式和字符编码指令,而不是常用字数量。例如,在编辑电话簿的时候,数据处理的根据是名单的文字书写方式和对所有字符编码的处理指令,而不是名单用了多少常用字。在今年九月召开的第十五届UNICODE 国际讨论会上,各国代表集中讨论的是文字符号的书写方式和信息科学技术发展的关系,而不是常用字符的多少。

              常用字数量是相对的。这些年常用的字,过些年就不常用了;而过去不常用的字,今天却可能很时髦。例如“酷”字,以前除了说“酷爱”、“冷酷”、“残酷”和“严酷”,基本很少用。现在,到处都用“酷”,比当年的“盖了帽了”要常用得多,“酷”字成了常用字。再说,不管一个字符是否常用,只要包括在数据里,就得按照通用于所有字符的和相当稳定的标准规范来统一处理,否则,数据管理就乱套了。因此,常用字数量不能作为数据管理的标准依据,更不是观察汉字在电脑时代是否有“瓶颈”的依据。

              所谓汉字方式在电脑时代遇到“瓶颈”,指的不仅仅是作者提到中文输入输出、储存和检索,而是全面的数据管理。如果光考虑计算机的中文输入输出、储存和检索,那么,美国IBM 公司早在60年代就全部实现了,到现在已经是30多年的老技术了。就微软公司在中国鼓吹的所谓“智能”输入法来说,美国软件WORDSTAR和WORDPERFECT 早在80年代初就实现了,加拿大一家公司制作的中文软件TIANMA也早在1984年就已经做到了。即便就考虑中文输入而不考虑其他,在中国,60年代就开始了有关试验研究,80年代以后出现了“万码(马)奔腾”,到现在,前后30来年,投入的人力、物力、资金和时间是世界上最多的,然而,不少问题还是没有解决。如果没有障碍需要克服,那么,仅仅为了输入就做那么大的投入,岂不是无的放矢和浪费吗?

              如何克服障碍?中国政府早就有了答案:坚持中文现代化的发展方向,坚持现代汉语拼音方案,坚持语言文字的标准规范化和有关的文字改革。1999年6月30日,中国国家主席江泽民和其他领导人接见了《当代中国》的编写组,其中包括该丛书《当代中国的文字改革》卷的科学家。在接见的时候,各位领导人充分肯定和高度评价了1949年到1985年文字改革工作的历程和成就,鼓励科学工作者继续坚持政府提出的政策,把现在和未来的工作做得更好。雷海涛的文章把中文改革的图景描绘成“抛弃汉字”,“是武断的,没有进行认真研究而做出的结论”的说法,不但不符合中文改革工作几十年的历史事实,也不符合中国政府一贯坚持的有关政策,更不符合国家领导人的殷切期望。

              作者把中文发展和向拼音文字学习对立起来的说法是极为不妥的。向拼音文字学习来搞好中文现代化,是许多中国科学家和文学家经过一百多年的努力而获得的认识,不是这十来年计算机普及才开始的想法。

              1892年,中国清政府就开始尝试用拼音文字的方法为中文建立一套拼音字母系统。世纪之交以后,发生了历史意义非常深远的新文化运动和白话文运动,其中一个很重要的成就,就是采用拼音文字的标点符号,把中文传统的单字堆积写法变成了分句写法。20年代和30年代,中国科学界提出了采用罗马拼音文字方法跟汉字结合使用的主张和具体措施。后来,文学家茅盾等人提出了拼音和汉字并用的“双文制”的主张。在那前后,鲁迅、巴金、赵元任、曹禺、郭沫若、老舍、戴望舒、林语堂、周有光、王均、吕叔湘等等许多世界著名的中国文学家和学者,都是中文改革的坚决支持者和实践者,对中文现代化作出了卓越的贡献。他们中间许多人的作品在历史上之所以有地位,跟历代作品一样,是因为集中记录和反映了语言文字的变化和时代的特征。

              在延安时代,毛泽东等领导人一直关心文字改革工作,大力支持陕甘宁边区政府主席林伯渠召开了拥护拉丁化新文字大会,宣布边区政府在法律上给予新文字合法地位,让大众有使用“双文制”的自由选择权。这是中国历史上第一次使中文采用拼音文字方式全面合法化的政治建设和法律建设的成就,为新中国成立以后继续推行中文现代化的事业打下了政治基础和法律基础。

              1958年,现代汉语拼音方案问世,解决了汉唐以后两千年没有解决的中文语音字符的问题,在向拼音文字学习方面跨出了重要的一步,是中文发展历史上的一件大事。多年来,现代汉语拼音方案不但是中国的国家标准方案,而且是联合国等国际组织处理中文文件的标准方案,同时,美国政府、美国国会图书馆和许多科研教育机构,也把现代汉语拼音方案作为管理中文文献的标准方案。从现代汉语拼音方案问世到现在,该方案一直是中国语文教学的基本内容之一。

              60年代,中国科学院语言研究所编写的《现代汉语词典》完成,首次采用以拼音字母为主排列中文词汇的方法,取得了巨大成功。70年代末和80年代初期,纯粹用拼音分词方式排列中文词汇的方法,在对外中文教学试验中也取得了很大成功。这两个成功,为如何实行“双文制”提供了重要的参考经验。目前,中国许多报刊杂志的刊头,都使用“双文制”,将汉语拼音字符和汉字并列使用。

              可见,向拼音文字学习来搞好中文现代化,是中国政府的一贯政策,取得了举世瞩目的伟大成就,得到了中国人民和全世界各国人民的承认和称赞。不幸的是,这十多年来,有关政策和发展成就被歪曲为“全盘西化”,甚至被一些人作为“左倾路线的产物”而否定。雷海涛的文章把中文发展和向拼音文字学习对立起来,恐怕是因为没有好好看看中文发展的历史,也没有好好学习中国政府的一贯政策。

              需要说明,我的文章的原名是《从信息熵的角度看中文信息产业的发展》,而不是《光明日报》改成的《汉语的‘信息熵’劣势》。修改的题目不妥,可能会造成“汉语劣势”或“中文劣势”的误导,因而可能会把用我的文章作开头而提倡的辩论引至错误的方向。如果修改的题目是“汉字的信息熵劣势”,我还可以勉强接受。一字之差,意义完全不一样。我曾经就此请教过中国有关部门的领导和专家,他们同意我的看法,希望能做公开说明和纠正,避免误导。

              信息熵的对象是符号系统及其效率,不是语言或语言的优劣。语言不存在优劣的问题,而文字方式则存在效率高低的问题。同一种语言可以用不同的字符书写记录,因而可以有不同的文字符号信息熵。同时,不同的语言也可以有非常近似的字符信息熵,例如,英文、西班牙文、法文、意大利文和德文各有千秋,然而,它们的文字方式基本同根(古代拉丁文),因而它们的信息熵非常近似。

              提到英文就想到ABC、提到中文就想到方块字,是一种文字方式长期为某种语言作书写记录的结果,并不能说明一种语言和一种文字符号的关系是天生如此和一成不变的,更不能说明一种文化只能有一种不变的文字符号。因此,一说到中文改革,就作汉语汉字和拼音语言文字之间孰优孰劣的比较,实在没有必要,在科学技术原理上也说不通。用从北京到上海旅行打比方来说吧:选择坐牛车还是坐火车,全看需要。想慢慢悠悠、不计成本效益,就坐牛车;想快一点、讲究成本效益,就坐火车。不管选择什么车,旅行者还是自己,没有优劣之分,不同的是旅行效率。同样,在信息科学技术时代,中文面临的挑战是文字方式效率的选择能否满足中国现代化长征的需要的问题,而不是中文的优劣或汉语跟其他语言相比孰优孰劣的问题。做那种比较,实际上是极端民族主义心理在作怪。我这话说的可能有些激烈,却是那种比较的本质。

              从传说的黄帝时代造文字到现在,因为历史发展的需要,中文书写方式发生过多次变化。然而,中文还是中文,中国文化不但没有消亡,反而更加丰富多采和发扬光大,同时,中文的使用和学习效率也随着每次变化而不断提高,为中国的科学文化水平发展进步做出了巨大贡献。认为搞中文文字改革就是抛弃中国文化的想法,不但不符合中国文化发展的历史事实,而且也过低估计了中国文化在变化中幸存和发展的能力。说实在的,那种想法不是在说明保护中国文化的意愿,而是反映了对中国文化发展前途感到悲观的某种消极情结。

分页树展主题 · 全看首页 上页
/ 102
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河