五千年(敝帚自珍)

主题:【原创】为什么汉语是世界上最先进的语言(上) -- 冷酷的哲学

共:💬1516 🌺8640 🌵163
分页树展主题 · 全看首页 上页
/ 102
下页 末页
                                  • 家园 看来你根本不知道信息熵是啥意思

                                    您既然说了二进制太少,又怎么能说英语的就正好呢?信息熵高低和training时间有毛关系啊。二进制语言就不需要training时间?那岂不是就能立马消灭文盲了?

                                    这个信息熵和压缩软件用的码表即字典是一个意思。要提高压缩率通常都要大字典。因此英语字母小字典必然带来使用中信息冗余度高,而汉语则冗余度低。这恰恰是汉语的优势而不是劣势。尤其是在现在信息爆炸的年代。

                                    顺便说一句,不要觉得二进制语言实用化有什么不可思议的,摩尔斯电码在电脑普及前一直是人工翻译的,熟练了的话并不比其他字母语言慢多少。这个星球上还有一种最接近二进制语言的自然语言,那就是宇宙大国的韩文,主要元素就是横和竖,再加上一个填补空位用的圆圈,稍加改造就是完美的二进制码。追求低信息熵的筒子们赶紧去学习推广韩文吧。

                              • 家园 写中文的cost为什么还要加拼音一项?

                                是读写分离的原因?

                                • 家园 您问的很有道理

                                  想了一下,觉得中文英文都应该加语音部分。英文应该根据语音算一下语音部分的信息熵。中文不能根据汉语拼音,应该根据汉字的读音算语音部分的信息熵。

                                  • 家园 人类口腔发音基本就是这么几百种

                                    如果中英文的编码符号都能表达这些音素,在进行中英文比较时基本上是否可以把第二项消去?

                                    那么我们就回到原本的语言熵的差别上来了。

                                    • 家园 如果只考虑文字,应该可以省略这一项

                                      单独考虑语音。英文发音决策树解决的是,从抽象字母到音素的对应。中文发音决策树解决的是,从抽象字符到音素+声调的对应。中文多2比特,也就是用两个yes or no的question解决四声的问题,但是表达同样的信息中文使用的汉字会少于英文使用的字母。所以很可能就是对消。

                                      所以全域的cost可以表示为:

                                      写英文的cost=x * (4.03 + n + E)

                                      写中文的cost=y * (9.65 + m + C + 2)

                                      假设:

                                      1.英文字母的符号信息熵为n,汉字的符号信息熵为m。

                                      2.英文的音素信息熵为E,中文的音素信息熵为C。

                                      3.书写一段同样的信息,英文需要x个字母,中文需要y个汉字。

                                      -----------------------------------------------------------

                                      这还只是决策过程的cost。训练和调用决策树本身同样需要巨大的cost。决策树的尺寸越大,建立,维护,和调用决策树的cost就越大。4.03和9.65这两个文字熵,量化了英语思维者和中文思维者,不同决策树的尺寸。

                                      1. 语言决策树越小,就越容易训练。所以,英语民族的人读写比中国人早,心智成熟的比中国人早,小时候有更多的时间玩。

                                      2. 语言决策树越小,能耗越低。语言决策树过大,必然挤占逻辑思维的能量,挤占逻辑决策树的空间。使用大型语言决策树的人,只有把语速放慢才能保证准确的逻辑思维。温总理的大脑一定在反复调用语言决策树和逻辑决策树,而且总理两个决策树都极其庞大,所以才会说的那么慢。

                                      3,语言决策树越小,表达越精确。语言决策树越庞大,决策过程越容易出错,造成词不达意,甚至影响后续的逻辑思维。(纠错的cost也要考虑,不过那是另外一个topic了。)

                                      • 家园 这个讨论变得越来越有意思了

                                        温总理的大脑一定在反复调用语言决策树和逻辑决策树,而且总理两个决策树都极其庞大,所以才会说的那么慢。

                                        据认为整个微观思维过程不需要语言参与(而是进行类似0/1开关式计算机逻辑运算),但是思维所需的原始信息通过语言进行解码输入和思维结果变成语言编码输出。

                                        所以逻辑决策树可能不是个问题,仅仅在排队等待语言解码信息的输入--也就是你所说的语言决策树。

                                        温在回答问题中调用其大脑中的语言数据储存时可能出现困难,根据任何人种的大脑硬件差别不大的原则出发,可以认为影响人类智慧的发挥的唯一可能是语言的语音/语义的甄别/挑选/合成/输出这几个节点的差距。

                                        比如现代计算机为了加快速度,尤其是处理图形运算速度,把GPU和CPU整合在同一芯片上,尽量缩短两个运算器的距离以助加快运行速度。

                                        根据神经电生理研究,人类大脑将逻辑运算/语音识别的功能放在左脑,把图形运算/情感的功能放在右脑。汉语使用者同时使用左脑和右脑,证明象形文字汉字的图形部分在右脑中进行分析处理,然后同左脑的语音/逻辑部分进行整合最后得到完整语义语音输入/输出。

                                        同时使用左右脑,左右脑工作不同步的可能性应该会存在,左右脑之间的不可缩短之距离又障碍了左右脑协同运算速度(参考CPU/GPU在同一基片上的设计);同时使用左右脑的另一个结果是处理器体积增大(左脑加右脑),从而造成你所说的语言决策树庞大造成耗能庞大的问题。

                                        我可能质疑你的“挤占逻辑决策树的空间”的提法:左脑的逻辑思维空间并没有在汉语使用者的大脑中被挤压(从汉语总共6万个词组同英语120万个词组的比较,反而存在大量的空余,换句话说,汉字使用者的左脑大量功能被闲置);恰恰相反,在右脑的图形/想象力的空间在汉语的使用者大脑中被挤压(超过6000个汉字符号的占领,而且是孩子发育过程阶段时的占领的后果,同农村男孩从小挑担/旧社会中国女孩从小裹脚造成的后果是类似的)。

                                        因此温总理不是天才,他的两个决策树同一般人一样的大小。

                                        爱因斯坦说过:天才的思维都是直观的……我思考问题时,不是用语言进行思考,而是用活动的跳跃的形象进行思考。当这种思考完成以后,……把它们转换成语言。

                                        汉字把形象思维所需的空间/通道的挤占/堵塞,是不是造成呆板僵硬的思维方式的微观原因?

                                        • 家园 临时数据

                                          我可能质疑你的“挤占逻辑决策树的空间”的提法:左脑的逻辑思维空间并没有在汉语使用者的大脑中被挤压(从汉语总共6万个词组同英语120万个词组的比较,反而存在大量的空余,换句话说,汉字使用者的左脑大量功能被闲置)

                                          我是这样考虑的:

                                          1.首先,“汉语总共6万个词组同英语120万个词组”这是字典上的词汇量(一个文明的词汇量),而不是某个个体所能掌握的词汇量。

                                          2.人脑大概和电脑类似,存在内存(瞬时记忆)和硬盘(长期记忆)。比如一般人可以心算1-2位数的乘法,但是心算更多位数的乘法就吃力了。人的智力水平大概和瞬时记忆力有关,瞬时记忆力强的人,可以支撑更大的决策树运算。

                                          3.虽然语言决策树和词汇量可以储存在长期记忆(硬盘)里,但是决策树的运转会产生大量的临时数据,需要瞬时记忆的支撑。逻辑决策树的运转同样会产生大量的临时数据,需要瞬时记忆的支撑。人脑在调用语言决策树和逻辑决策树的时候,虽然可以分时复用,甚至并行计算,但是大量的临时数据必然相互挤占资源(时间和瞬时记忆空间)。如果瞬时记忆不够用,就会出现,前言不搭后语,词不达意,逻辑混乱等状况。

                                          当然,这些更多的是我的猜测,可以说完全超出我的知识范围。如果不对,还请指正。

                                          因此温总理不是天才,他的两个决策树同一般人一样的大小。

                                          这个值得商讨,也许温总理说话慢是因为:

                                          1.温总理的语言决策树更大更复杂。同样的想法,是用我这个简单幼稚的语言决策树来生成,还是用温总理复杂成熟的语言决策树来生成,这个cost完全不同。

                                          2.温总理的逻辑决策树比一般人的更庞大,更复杂,需要综合更多的信息。因此,他每蹦一个字都要经历很多思考。

                                          3.温总理不能说错,不能词不达意。纠错对于温总理是巨大的cost。

                                          汉字把形象思维所需的空间/通道的挤占/堵塞,是不是造成呆板僵硬的思维方式的微观原因?

                                          1.训练表意语言的决策树,必然同时训练大量的bias。所谓“呆板僵硬的思维方式”由此产生。

                                          2.汉语决策树庞大,需要大量的时间和精力才能训练出来。这个在宏观上,必然挤占我们思考其它问题的时间。

                                          3.汉语文字信息熵和符号信息熵大,导致常用汉字不足,这就造成了“取样步长过大,造成细微细节缺失”。把照片说成了漫画。很多人又没有像温总理那样努力的去纠错,把漫画直接就往逻辑决策树里送。garbage in, garbage out.

                                          http://www.cchere.com/article/3848644

                                          • 家园 试图用信息论的概念讨论一下

                                            英语的文字熵是4.0比特。根据香农的信息论计算,英语实际上最低只要使用2^4=16个字母即可。现实中英语使用了26个字母,所以英语的编码效率是16/26=61.5%; 汉语实际上最低所需的汉字是2^9.65=803个,而常用汉语汉字6000个,因此汉语的编码效率是803/6000=13.3%而已。

                                            “最先进的语言”和“落后的语言”之比较是不是要比较编码效率?

                                            汉字803个单字就是把人类口腔所能发出的音调基本都囊括了。多余出来的5200个汉字必然是同音字了。

                                            通过信息论分析,我们是不是看到拼音文字同象形文字的差距了?我一直好奇:古汉语为什么单字词为主而现代汉语以双字词组为主?而英语平均为3音节词?

                                            2.温总理的逻辑决策树比一般人的更庞大,更复杂,需要综合更多的信息。因此,他每蹦一个字都要经历很多思考。

                                            这个要进行对照实验:周总理口齿伶俐,朱镕基也会口若悬河,李鹏温家宝这些京津片子就木纳得多。是不是前两位英语较好?


                                            本帖一共被 2 帖 引用 (帖内工具实现)
                                            • 家园 说这么多干嘛,实际上两个字母就够了

                                              完美语言啊,效率接近100%。哪像英语大小写要五十二个,法德等加上重音符号恐怕有百八十个吧,那效率说不定还不如中文呢。

    • 家园 小报性质的标题

      不错的科普。

    • 家园 汉语的奇妙

      1、冬天:能穿多少穿多少;夏天:能穿多少穿多少。

      2、剩女产生的原因有两个,一是谁都看不上,二是谁都看不上。

      3、地铁里听到一个女孩大概是给男朋友打电话,“我已经到西直门了,你快出来往地铁站走,如果你到了,我还没到,你就等着吧。如果我到了,你还没到,你就等着吧。”

      4、单身人的来由:原来是喜欢一个人,现在是喜欢一个人。

      5、两种人容易被甩:一种不知道什么叫做爱,一种不知道什么叫做爱。

      6、想和某个人在一起的两种原因:一种是喜欢上人家,另一种是喜欢上人家。

      通宝推:天白,夜无痕,
      • 家园 Wow, I'm impressed!

        但言者知道俺这标题是惊喜还是鄙夷的语气吗?

        题中所引的奇妙的例子,无非同俺的标题一样,是要看语境的吧,哪一门语言恐怕都是如此.

分页树展主题 · 全看首页 上页
/ 102
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河