五千年(敝帚自珍)

主题:中国文明只有63岁——《大目标》后记 修正技术错误 -- 马前卒

共:💬216 🌺1256 🌵22
全看分页树展 · 主题 跟帖
家园 你真的看过信息论与通信原理?

熵值越高的语言,用其进行通信时发生错误的可能越大(容错率低,冗余度低)

通信错误率是信道的特征,和信源没有任何关系。

而信息论的核心问题,就是把信源编码到(相同码字长度内)最高的熵值。

汉字的熵比字母高得多,这很正确,虽然你的数据可能有问题。但是,依据信息论,(如果二者是可比较的话)汉字是更优秀的信源编码方案。

不过,你给的数据本身可能有问题,因为英文字母的熵不可能有4之多(记得根据一些理论估计,极限应当在1.3左右,这是压缩软件可达到的最大理论极限),而英文单词的熵又显然要比4高很多,如果你用的是2为底的对数的话。另外,汉字的熵和英文字母或者词的熵是不可比较的,虽然二者同为熵,虽然物理上熵是无量纲的。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河