五千年(敝帚自珍)

主题:【原创】为什么汉语是世界上最先进的语言(上) -- 冷酷的哲学

共:💬1516 🌺8640 🌵163
全看树展主题 · 分页首页 上页
/ 102
下页 末页
家园 表音语言可以做到的,表意语言都可以做到

表音语言可以做到的,表意语言都可以做到,问题是要花多长时间。表意语言的运作方式更加复杂,难学难用,很可能影响到民族竞争力。

从历史的角度看,一直是表音文明淘汰表意文明,现存的表意文明只剩中国一家。这就是现实,比任何理论都有说服力。

从理论的角度看,我觉得表音语言作为一种通信协议是严格分层的,层与层之间各司其职。表意语言层就不是非常清晰了,所以处理起来的消耗更多的资源。

表音语言:

1. 底层(基本不过脑子):表音文字通过单词,空格,标点符号把含义加以封装,封装严谨;通过语音(拼音)和图像(字形)两种独立的编码交叉纠错,纠错效率非常高。

2. 顶层:通过语法把各种单词组织起来,形成表达和理解正确的思想。

表意文字:

1. 底层:表意语言的底层是彻底分开的两套编码,语音和文字。语言的封装近似表音文字的语音部分。文字的封装存在标点符号,以及对字的封装,但是没有词的封装。表音文字,音型分离,虽然是两套编码但是不能相互纠错。会说的不一定会写,会写的不一定会读。其中文字的纠错结果还好说,语音的纠错结果只是汉语拼音,仍然不靠谱,需要在顶层进一步纠错。综合起来,就是文字封装不完整,语音纠错不完整。

2. 顶层:表意语言的顶层负担非常重。首先是断词,对字要重新封装。如果输入的是汉语拼音,断词的同时要再次纠错。更麻烦的是我们的语法并不严格,随意性很强。于是断词和纠错必须结合上下文,顶层的负担极其沉重。

总的看,表意语言的使用需要消耗更多的资源,所以不是好语言。

电脑建立于其上的信息理论来计算出来的,而这个信息理论,原来就是产生于一个主要是表音文字的科研环境

我觉得电脑理论更多的是基于数学语言产生的。在我看来数学是数学语言。图表是图表语言。

家园 汉语只是中华民族的一个工具。

汉语只是中华民族的一个工具。任何工具要想适应现代社会的竞争就要不停的升级换代。搞升级换代,有些人喜欢自己摸索,逐步升级;有些人觉得没必要reinvent the wheel,就直接copy。前者已经停了,当然是后者的可能性比较大。我自己的观点是:抽象词汇直接copy,有实物对应的词汇汉语拼音化单词化,严格语法,增加空格。

当然也有很多人觉得今天的汉语已经很完美了,最多规范一下即可。我觉得这是最危险的。如同提着青铜宝剑打现代战争。

另外,我说“汉语”的时候包括了汉字和汉语的语音。

家园 语言是文化的基础,

可不是什么工具而已,如果没有汉语,那就是香蕉。

按你的观点,就没有中华民族了,日本人当年就想这么干来着。

任何语言都不可能完美,包括汉语,但也包括所有其他语言,完美的语言曾经有,好比世界语。

至于怎么样危险,不劳您操心,您觉得好的正是我觉得危险的,也是多数中国人觉得危险的。至于青铜剑,您要是认为氢弹是青铜剑我不反对。

也许您是说汉语这种语言不利于科学研究,认为这些年中国的科学研究发展不够快,但是这些年中国穷,投入到科学研究里的资源是非常有限的,按投入产出比例来说,中国的科学研究的成果并不差。现在投入上来了,研究成果也正在很快的上来。

家园 二进制语言文字熵是1比特,是最低的,但是其不是自然语言

人类不能识别二进制语言,这是一种机器语言,尽管人类大脑深处还是使用这种二进制语言。

我们在这里讨论的是自然语言----自然语言必须记录音素和语素。

家园 掌握多种语言是一种乐趣

怎样使用,何时何地使用何种语言就很有讲究了。

家园 至此,可以另开一个帖子讨论语言和汉语汉字了

有没有兴趣?

觉得讨论文字在没有一个客观标准前就先定义一个“最先进”文字,如同某个国家的某个团体在30年代定义了一个“最优秀”民族,最后被全世界耻笑。

如果能证明一个“最先进的语言”,那么也就应该非常容易证明出一个“最落后的语言”,如没有这种定义“最落后语言”的能力,那么证明出来的“最先进的语言”可能是个伪证。

家园 是不是有误

到时候要么表音语音被淘汰,要么表音语言的载体民族被淘汰。

应该是“到时候要么表意语音被淘汰,要么表意语言的载体民族被淘汰”?

其实汉语也在进化,已经有很大的表音成分在里面了--你看看“杯具”这个词是表音还是表意?

我们以后可以讨论这个表音/表意关系。

家园 为什么不能识别呢?

1010101那么简洁明了?

还不是因为这一大串数字根本就超过了人类记忆的能力了,那么你所谓的1比特的文字熵为什么反而是难记到人类根本学不会,你对此一点思考也没有过么?

只能说诋毁中文在你已经是宗教信仰一样不可置疑了,除此还能说你什么呢?PBS教主大人

家园 客观标准

从芝加哥去纽约有很多方式,可以步行,可以开车,可以做船,可以做飞机。究竟哪种方式好呢?我想这跟我们此行的目的有关。

如果以提高民族竞争力为目的,我认为好的文字在使用中,cost应该尽量低。

文字熵可以量化这个cost。

1. 中文文字信息熵9.65比特,英文文字信息熵4.03比特。假设我们用英文和中文传递同样的信息。用英文处理每个字母,大脑平均需要解决4个yes or no的question。用中文处理每个汉字,大脑平均需要解决9个以上的yes or no的question。

2. 1所计算的文字信息熵,只是抽象符号的信息熵。抽象符号和具体实际中使用的符号是不同的。比如在实际中我可以选择用“a”这个具体符号表示一个抽象的字母或汉字,也可以选择用“齉”这个具体符号表示,但是对脑力的挑战完全不同。西方人研究西方文字可以忽略这个问题,但是我们研究汉字就不能忽略这个问题了。我认为无论是“a”还是“齉”都可以缩减为一组像素,然后以计算文字信息熵的方法可以计算出每写一个字母或汉字需要几个yes or no的question。我不知道前人是否已经给这个东东起了名字,做了计算,我姑且叫他符号信息熵。我们假设写一个英文字母需要n比特的符合信息熵,写一个汉字需要m比特的符号信息熵。

假设书写一段同样的信息,英文需要x个字母,中文需要y个汉字,那么:

写英文的cost=x*n*4.03

写中文的cost=y*m*9.65 + 汉语拼音的cost

这里汉语拼音的cost的计算方法,同1,2.

家园 写中文的cost为什么还要加拼音一项?

是读写分离的原因?

家园 您问的很有道理

想了一下,觉得中文英文都应该加语音部分。英文应该根据语音算一下语音部分的信息熵。中文不能根据汉语拼音,应该根据汉字的读音算语音部分的信息熵。

家园 人类口腔发音基本就是这么几百种

如果中英文的编码符号都能表达这些音素,在进行中英文比较时基本上是否可以把第二项消去?

那么我们就回到原本的语言熵的差别上来了。

家园 词根词缀法;选择题(单选)是靠语感,只要把正确选项带入诵

词根词缀法;选择题(单选)是靠语感,只要把正确选项带入诵读;英语环境确实很重要,用一本译本就够了;还有一本书,我买了没好好看,不是广告<<像高手一样学语法>>,牛童。

家园 如果只考虑文字,应该可以省略这一项

单独考虑语音。英文发音决策树解决的是,从抽象字母到音素的对应。中文发音决策树解决的是,从抽象字符到音素+声调的对应。中文多2比特,也就是用两个yes or no的question解决四声的问题,但是表达同样的信息中文使用的汉字会少于英文使用的字母。所以很可能就是对消。

所以全域的cost可以表示为:

写英文的cost=x * (4.03 + n + E)

写中文的cost=y * (9.65 + m + C + 2)

假设:

1.英文字母的符号信息熵为n,汉字的符号信息熵为m。

2.英文的音素信息熵为E,中文的音素信息熵为C。

3.书写一段同样的信息,英文需要x个字母,中文需要y个汉字。

-----------------------------------------------------------

这还只是决策过程的cost。训练和调用决策树本身同样需要巨大的cost。决策树的尺寸越大,建立,维护,和调用决策树的cost就越大。4.03和9.65这两个文字熵,量化了英语思维者和中文思维者,不同决策树的尺寸。

1. 语言决策树越小,就越容易训练。所以,英语民族的人读写比中国人早,心智成熟的比中国人早,小时候有更多的时间玩。

2. 语言决策树越小,能耗越低。语言决策树过大,必然挤占逻辑思维的能量,挤占逻辑决策树的空间。使用大型语言决策树的人,只有把语速放慢才能保证准确的逻辑思维。温总理的大脑一定在反复调用语言决策树和逻辑决策树,而且总理两个决策树都极其庞大,所以才会说的那么慢。

3,语言决策树越小,表达越精确。语言决策树越庞大,决策过程越容易出错,造成词不达意,甚至影响后续的逻辑思维。(纠错的cost也要考虑,不过那是另外一个topic了。)

家园 这个讨论变得越来越有意思了

温总理的大脑一定在反复调用语言决策树和逻辑决策树,而且总理两个决策树都极其庞大,所以才会说的那么慢。

据认为整个微观思维过程不需要语言参与(而是进行类似0/1开关式计算机逻辑运算),但是思维所需的原始信息通过语言进行解码输入和思维结果变成语言编码输出。

所以逻辑决策树可能不是个问题,仅仅在排队等待语言解码信息的输入--也就是你所说的语言决策树。

温在回答问题中调用其大脑中的语言数据储存时可能出现困难,根据任何人种的大脑硬件差别不大的原则出发,可以认为影响人类智慧的发挥的唯一可能是语言的语音/语义的甄别/挑选/合成/输出这几个节点的差距。

比如现代计算机为了加快速度,尤其是处理图形运算速度,把GPU和CPU整合在同一芯片上,尽量缩短两个运算器的距离以助加快运行速度。

根据神经电生理研究,人类大脑将逻辑运算/语音识别的功能放在左脑,把图形运算/情感的功能放在右脑。汉语使用者同时使用左脑和右脑,证明象形文字汉字的图形部分在右脑中进行分析处理,然后同左脑的语音/逻辑部分进行整合最后得到完整语义语音输入/输出。

同时使用左右脑,左右脑工作不同步的可能性应该会存在,左右脑之间的不可缩短之距离又障碍了左右脑协同运算速度(参考CPU/GPU在同一基片上的设计);同时使用左右脑的另一个结果是处理器体积增大(左脑加右脑),从而造成你所说的语言决策树庞大造成耗能庞大的问题。

我可能质疑你的“挤占逻辑决策树的空间”的提法:左脑的逻辑思维空间并没有在汉语使用者的大脑中被挤压(从汉语总共6万个词组同英语120万个词组的比较,反而存在大量的空余,换句话说,汉字使用者的左脑大量功能被闲置);恰恰相反,在右脑的图形/想象力的空间在汉语的使用者大脑中被挤压(超过6000个汉字符号的占领,而且是孩子发育过程阶段时的占领的后果,同农村男孩从小挑担/旧社会中国女孩从小裹脚造成的后果是类似的)。

因此温总理不是天才,他的两个决策树同一般人一样的大小。

爱因斯坦说过:天才的思维都是直观的……我思考问题时,不是用语言进行思考,而是用活动的跳跃的形象进行思考。当这种思考完成以后,……把它们转换成语言。

汉字把形象思维所需的空间/通道的挤占/堵塞,是不是造成呆板僵硬的思维方式的微观原因?

全看树展主题 · 分页首页 上页
/ 102
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河