五千年(敝帚自珍)

主题:【原创】为什么汉语是世界上最先进的语言(上) -- 冷酷的哲学

共:💬1516 🌺8640 🌵163
分页树展主题 · 全看首页 上页
/ 102
下页 末页
              • 家园 果然,越是没文化的人越自恨

                就算没接触过外国人,只要上过初中的人都该知道learn by heart里的heart是哪个器官吧。请先进语言的使用者示范用heart来learn一下看看?

                • 家园 这个例子不错

                  我就是反对表意语言。英语虽然不是表意语言,但是一些词组是表意的,我也反对。因为表意成分不容易淘汰掉,即使错了还能长期存在。

                  • 家园 俺是坚决反对表音语言

                    因为语音变化太快,使用表音语言,人类注定要分裂。即使现在英语流行,也很快分出美国英语、英国英语、新加坡英语等,而且现代英语与500年前的古英语已经大相径庭了。

                    人类文明需要一个相对固定的语言载体,在这方面,表意语言的稳定性远超表音语言。人类大统一的前途在表意语言。汉语任重而道远。

                    • 家园 农耕时代的确如此

                      1.但是随着广播电视电影网络的发展,语音会趋于统一而不是分裂。

                      2.表音语音在人机语音交互上有巨大优势,表意语音在人机语音交互的时代会遇到困难。到时候要么表音语音被淘汰,要么表音语言的载体民族被淘汰。

                      • 家园 是不是有误

                        到时候要么表音语音被淘汰,要么表音语言的载体民族被淘汰。

                        应该是“到时候要么表意语音被淘汰,要么表意语言的载体民族被淘汰”?

                        其实汉语也在进化,已经有很大的表音成分在里面了--你看看“杯具”这个词是表音还是表意?

                        我们以后可以讨论这个表音/表意关系。

                      • 家园 想事情太单一

                        1.但是随着广播电视电影网络的发展,语音会趋于统一而不是分裂。

                        这个只是网络社会中的一个趋势,而反向趋势也是同时存在的。比如,网络促进了人与人之间的交流,使得社会可以突破空间的限制趋向同质化,但是网络同时也让人有了选择的自由,使得人能够突破空间的限制保持自己的异类特征。这点在意识形态的领域是很明显的。前网络社会,人的交流对象限于物理空间,因此或多或少,思想会根据地域趋同,而在网络社会,人能够在网络寻找适合自己的内容,极容易陷入正反馈,反而会使原有的特质极端化及固化。

                        在语言方面,诚然,交流的迅速,能够让强势方言的优势迅速巩固,然而也使消灭有一定使用者的少数方言成为不可能的任务(比如粤语、闽语)。因此,将来的发展趋势不是简单的趋同化,而是会出现双流并存的局面。强势的标准语音,会得到更好的普及,然而,社会中会出现更多小群,使用自己独特的方言或语音。至于英语,几种强势方言(中、印、英、美)之间会互相感染,最后的共用语言会大致趋同,但是各自的口音特性都会得到保留,甚至会出现以此为分界线的社群。

                        2.表音语音在人机语音交互上有巨大优势,表意语音在人机语音交互的时代会遇到困难。到时候要么表音语音被淘汰,要么表音语言的载体民族被淘汰。

                        其实最有可能发生的,是只能用于语音交流的机器被淘汰掉。

                        ---

                        你前面的帖子写了一句话,可能你自己都没仔细读:

                        因为表意成分不容易淘汰掉,即使错了还能长期存在。

                        先不管为何不容易淘汰掉,人类语言发展了这么长时间,基本上不是那些不容易淘汰掉的留下来了吗?“不容易淘汰掉”不正是自然界“择物”的最终准则么?

                        推崇表音文字,是基于表意文字的信息囧的理论。问题是这个信息囧,是根据目前所有电脑建立于其上的信息理论来计算出来的,而这个信息理论,原来就是产生于一个主要是表音文字的科研环境,这不是循环逻辑么?

                        ---

                        信息囧目前的计算方式,隐含了一个前提,既人脑的运作原理是类似于电脑的。因此适用于电脑的信息囧,同样的也适用于人脑。然而这个前提目前是无法substantiate的,因为我们对人脑及人类语言的运作方式的了解还远远不够。

                        我们可以说,电脑的运作方式,从某种层面来说,类似于人脑,然而限制电脑的条件,未必同样限制人类。电脑说到底,是人类制造的一个工具。而从来只有人类去创造更好的工具来适应人类的道理,而没有人类去适应工具的道理。削足适履说得就是这个意思。

                        ---

                        这个帖子是去年的,今年才看到,实有遗珠之恨。

                        • 家园 表音语言可以做到的,表意语言都可以做到

                          表音语言可以做到的,表意语言都可以做到,问题是要花多长时间。表意语言的运作方式更加复杂,难学难用,很可能影响到民族竞争力。

                          从历史的角度看,一直是表音文明淘汰表意文明,现存的表意文明只剩中国一家。这就是现实,比任何理论都有说服力。

                          从理论的角度看,我觉得表音语言作为一种通信协议是严格分层的,层与层之间各司其职。表意语言层就不是非常清晰了,所以处理起来的消耗更多的资源。

                          表音语言:

                          1. 底层(基本不过脑子):表音文字通过单词,空格,标点符号把含义加以封装,封装严谨;通过语音(拼音)和图像(字形)两种独立的编码交叉纠错,纠错效率非常高。

                          2. 顶层:通过语法把各种单词组织起来,形成表达和理解正确的思想。

                          表意文字:

                          1. 底层:表意语言的底层是彻底分开的两套编码,语音和文字。语言的封装近似表音文字的语音部分。文字的封装存在标点符号,以及对字的封装,但是没有词的封装。表音文字,音型分离,虽然是两套编码但是不能相互纠错。会说的不一定会写,会写的不一定会读。其中文字的纠错结果还好说,语音的纠错结果只是汉语拼音,仍然不靠谱,需要在顶层进一步纠错。综合起来,就是文字封装不完整,语音纠错不完整。

                          2. 顶层:表意语言的顶层负担非常重。首先是断词,对字要重新封装。如果输入的是汉语拼音,断词的同时要再次纠错。更麻烦的是我们的语法并不严格,随意性很强。于是断词和纠错必须结合上下文,顶层的负担极其沉重。

                          总的看,表意语言的使用需要消耗更多的资源,所以不是好语言。

                          电脑建立于其上的信息理论来计算出来的,而这个信息理论,原来就是产生于一个主要是表音文字的科研环境

                          我觉得电脑理论更多的是基于数学语言产生的。在我看来数学是数学语言。图表是图表语言。

                          • 家园 至此,可以另开一个帖子讨论语言和汉语汉字了

                            有没有兴趣?

                            觉得讨论文字在没有一个客观标准前就先定义一个“最先进”文字,如同某个国家的某个团体在30年代定义了一个“最优秀”民族,最后被全世界耻笑。

                            如果能证明一个“最先进的语言”,那么也就应该非常容易证明出一个“最落后的语言”,如没有这种定义“最落后语言”的能力,那么证明出来的“最先进的语言”可能是个伪证。

                            • 家园 客观标准

                              从芝加哥去纽约有很多方式,可以步行,可以开车,可以做船,可以做飞机。究竟哪种方式好呢?我想这跟我们此行的目的有关。

                              如果以提高民族竞争力为目的,我认为好的文字在使用中,cost应该尽量低。

                              文字熵可以量化这个cost。

                              1. 中文文字信息熵9.65比特,英文文字信息熵4.03比特。假设我们用英文和中文传递同样的信息。用英文处理每个字母,大脑平均需要解决4个yes or no的question。用中文处理每个汉字,大脑平均需要解决9个以上的yes or no的question。

                              2. 1所计算的文字信息熵,只是抽象符号的信息熵。抽象符号和具体实际中使用的符号是不同的。比如在实际中我可以选择用“a”这个具体符号表示一个抽象的字母或汉字,也可以选择用“齉”这个具体符号表示,但是对脑力的挑战完全不同。西方人研究西方文字可以忽略这个问题,但是我们研究汉字就不能忽略这个问题了。我认为无论是“a”还是“齉”都可以缩减为一组像素,然后以计算文字信息熵的方法可以计算出每写一个字母或汉字需要几个yes or no的question。我不知道前人是否已经给这个东东起了名字,做了计算,我姑且叫他符号信息熵。我们假设写一个英文字母需要n比特的符合信息熵,写一个汉字需要m比特的符号信息熵。

                              假设书写一段同样的信息,英文需要x个字母,中文需要y个汉字,那么:

                              写英文的cost=x*n*4.03

                              写中文的cost=y*m*9.65 + 汉语拼音的cost

                              这里汉语拼音的cost的计算方法,同1,2.

                              • 家园 既然信息量相同,x*n必然远大于y*m

                                至少是相等的。同样是100比特信息,汉字约需要100/9即11个汉字,英文约需要100/4即25个字母。如果每个英文字平均有4个字母,每个英文字约4*4=16个比特,远大于中文。而training英文要几万个字,中文只需几千个,因而高于中文一个数量级。所以同样信息量下英文cost远大于中文。

                                • 家园 信息熵的含义

                                  100/9即11个汉字

                                  你没有理解信息熵的含义。信息熵的含义是说平均每写一个汉字需要问几个yes or no,而不是每个汉字包含多少信息。所以你这个计算根本就不对。

                                  -------------------------------------

                                  关于cost我是先有体会,才开始寻找理论。

                                  我女儿8岁,学校里做过测试,在美国的同龄人中,数学能力是99%的水平,英文的能力是88%的水平。放到中国,我觉得她的数学能力最多中等偏上水平,但是阅读和写作的能力可以远远超过同龄的孩子。具体来讲,从2年级开始每天阅读1本1-2cm厚的书。最近学校组织学生写小说,她一气写了15页纸。在中国,一般的学生估计要到4年级以后才有同等的阅读和写作能力。

                                  • 家园 是你没有理解信息熵的含义

                                    英语法语德语信息熵为什么都是4点几?能大于6吗?汉字的信息熵为什么是9点几?能超过16吗?能回答这几个问题才能说你理解了这个概念。

                                    另外,知道摩尔斯电码吗?为什么它是不等长编码?

                                    还有你女儿的例子,恰恰就说明了英语冗余度比汉语高,所以从量上看都比汉语大,但是真实信息量并没有看起来那样大。这跟上手容易不容易是两码事。

                                    假设:看来很多人对那个所谓的汉字信息熵还很不理解

                              • 家园 你也信这个信息熵比较法?

                                那么您也支持二进制语言一统天下么?

                                • 家园 那么您也支持二进制语言一统天下么?

                                  您的问题其实直指问题的核心,那就是纠错。

                                  我认为,拼音语言最大的优势是语音和文字之间存在联系,所以可以相互纠错。要想建立语音与文字的联系,最好是一一对应的联系,就需要让文字符号的种类接近高质量发音的种类。与人类高质量发音的种类相比,二进制语言的文字符号太少,而汉语的文字符号太多,都不如汉语拼音效率高。

                                  信息熵反映的是汉语的另一个问题。train高信息熵的语言需要更多的时间,因为高信息熵意味着庞大的决策树。如果学习语言占用了大量发育期的时间,那么必然相应的减少学习其它能力的时间,滞后掌握其它能力的年龄。这是一个负面影响,其后果可能是终生的,不可逆的。

                                  此外,符号的书写需要训练另外一个决策树,我们可以把它叫做文字熵。英文的字母,显然比汉字容易学。(汉字的文字熵远远高于英文字母)为了减轻中国学生的负担,我们开始普及简化字。尽管如此,汉字的文字熵仍然远远高于,英文的文字熵。(差距也许大于信息熵上的差距)所以中国学生在学习语言方面的负担远远大于英语国家的同龄人。

分页树展主题 · 全看首页 上页
/ 102
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河