五千年(敝帚自珍)

主题:【原创】汉语和英语的比较 -- 颜赤城

共:💬368 🌺1318 🌵2
全看分页树展 · 主题 跟帖
家园 这个熵是信息熵

表示通信过程中的不确定度和消除不确信度所需的信息度

从信息论的角度看来, 用自然语言交际的过程, 就是把信息通过语言的发送者发送出来,通过通讯媒介, 传输给语言的接收者的过程。语言的发送者连续地发出一个一个的语言符号,而语言的接收者则连续地接收到一个一个的语言符号。如果我们把这些语言符号的发送或接收看成是一些随机试验, 把所发送或接收的语言符号看成是随机试验的结局, 那么, 语言就可以看作是一系列具有不同随机试验结局的链。如果语言中只有两个符号, 而且这两个符号的出现概率有很大的区别, 那么, 在接收者接收到语言符号之前, 他就能够满有把握地预言,他最可能接收到哪一个符号, 而不大可能接收到哪个符号, 也就是说, 这个随机试验的不肯定性程度很小。而当语言的符号数目增大时, 接收者预言他所可能接收到的语言符号的把握性就减小, 也就是说, 这个随机试验的不肯定性程度增大了。

当还是这些数目的语言符号而这些符号的出现概率相等的时候, 接收者不能对其中的任何一个语言符号寄予较多或较少的希望,这样预言他所可能接收到的语言符号的把握就更小, 也就是说, 这个随机试验的不肯定性程度更大了。但是, 不论在哪一种场合, 当接收者一旦接收到语言符号之后, 这种不肯定性便随之消除。这时, 我们可以说, 接收者从所接收的语言符号中获得了一定量的信息。不肯定性消除的程度越大, 获得的信息就越多。

因此, 我们可以用在接收者接收到语言符号之前, 随机试验结局不肯定性程度的大小来表示语言符号所负荷的信息量。在信息论中, 把随机试验结局不肯定性程度的大小叫做嫡。在接收到语言符号之前, 摘因语言符号数目的多少和出现概率的不同而不同。在接收到语言符号之后, 不肯定性消除, 嫡等于零。可见, 信息量恰恰等于被消除的嫡, 我们只要测出了语言符号的嫡, 就可以了解到该语言符号所负荷的信息量是多少。

我们测出包含在一个汉字中的熵是9.6比特, 也就说明在一个汉字中所包含的信息量是9.6比特。汉字的嫡值大, 说明汉字中所包含的信息量大,也就是说要克服一个汉字在通讯中出现可能的混乱,必须要保证提供9.6比特的信息量。

在智力学习的过程来讲。这个9.6比特的信息负荷量要比4.0比特的信息负荷量要高,对于还在发育的孩童的大脑来讲,可能是超载了。所以使用9.6比特熵值语言的小孩子要靠死记硬背而不是逻辑推理的方式来进行运算,对大脑的发育可能带来永久性的影响--某些用于创新的脑区可能被永远占领(模式化)而不能用于以后成年所需的创造性思维了。

造成汉字这个熵值太大是鉴于字素的原因---汉字无法通过字母简化和扩展书写,其笔画书写方式变化种类和规则太多,无法简并。

通宝推:桥上,
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河