五千年(敝帚自珍)

主题:中国文明只有63岁——《大目标》后记 修正技术错误 -- 马前卒

共:💬216 🌺1256 🌵22
全看分页树展 · 主题 跟帖
家园 汉字单字是最小语素单位,熵值的确是9.6比特

你能用4比特编码26个字母?9.6比特拿来编码只能容纳不足1千个不同字符而已。你肯定你的数字没错?

ASCII码采用8位二进制码(可以提供2^8=256个字符码,),每个码信息量为8比特,对付熵值小于8比特的拼音字母绰绰有余,而中文单字的熵值是9.6比特,不能拆分,超过8比特,8个比特的256个位码就不够用了,就必须采用16位二进制码(2个8位码,可以覆盖2^16=65536个中文字)。

拼音文字的语素最小单位是字母,英语的26个字母,根据使用频率计算,得出的熵值是4.03比特。如果假定26个英文字母使用频率一致,我们可以简化对英文字母熵值的近似计算得出其值= log2(26)=4.6比特。

这个熵值是信息熵,同热力学上的那个熵的量纲不同。

有人争辩汉字的笔画是最小字素单元,这个论点是错误的,我在上面的帖子里就提到“木”这个字,我们不是依赖于"木“的横竖撇捺笔画顺序来这样读“木”这个字,而是根据图形识别。

阅读英文也不是通过字母的书写顺序,而只要通过单字的第一个字母和最后一个字母来辨识英文单字:

点看全图

外链图片需谨慎,可能会被源头改

而相比之下,太平天国的大平天国和犬平天国的写法错误不能通过单字的本身错误所纠正,而是要依赖上下文来判断---对一个不熟悉中国历史的人来说,大平天国没有一个错字,但他无法知道这个词的错误在哪里。

4比特熵值的英语单字可以很容易地克服本身的错误拼写,而9.6比特熵值的中文就要靠上下文来判断单字的错误写作了,这就是汉字的熵值高的表现,必须额外输入负熵(上下文判断)减少混乱度。

尽管英语的书写冗余度高,英文的字母排列还包括发音,不仅仅是为了书面阅读所需,还有语音元素,所以其冗余度是拨给用于语音载体,因此准确地排列是必须的。

而汉字本身不带有语音元素,全部字素用于视写辨识,最终造成读写分离,同时也给简化字带来可能--简化字类似于mp3的压缩制式。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河