五千年(敝帚自珍)

主题:【原创】【整理】滑向混乱的美国 -- 联储主席

共:💬354 🌺3234 🌵32
全看分页树展 · 主题 跟帖
家园 信息熵不是熵,就像广义力不是力

如果字频是一样的话,那么五千字是ln(5000)=12.29bit

26个英语字母是ln(26)=4.70bit

但由于字频有高有低,加权之后会分别比12.29和4.70小。

信息熵其实就是信息量,就是说单个汉字包含的信息比单个字母多。例如发推,中文/朝鲜文/日文140个字能说一段话,欧洲语言140个字母往往只能说一句话;这是因为中日朝文都有数千个常用字,单个字信息量就大了。

http://blog.livedoor.jp/nabokov7/archives/1498403.html

「Twitterの140文字は他言語では何文字くらいか」(140字的英语推文用其他语言需要多少字符)

看看这个,可以发现,信息熵(信息量)大的文字系统,同样的推文常需要更少的字数。实际上汉化galgame的同学们也能发现,日文30KB的文本,翻译成汉语就20KB了,如果是英化组,同一个文本或许膨胀到45KB。这和信息熵中文>日文>英文是对应的。如果把汉语像越南语那样拼音化了的话,拼音化汉语的信息熵应该是和英语差不多的,140个字母的拼音化汉语会像英语那样只够说一句话。

信息量之所以称之为信息熵,可能是因为它和物理化学中的熵的推出公式具有相同的形式。它在包括输入法设计的许多领域都有应用,但是把信息熵和物理化学里面的熵混为一谈进而论证汉字不好什么的,和「电压和水压都是压力,中国人现在压力都很大所以一切都是体制问题」有異曲同工之妙。

http://googlechinablog.blogspot.com/2006/04/4_1731.html

信息量

http://googlechinablog.blogspot.com/2007/12/blog-post_7986.html

信息量和输入法编码的极限

http://googlechinablog.blogspot.com/2006/05/blog-post_2403.html

信息量和上下文预测

通宝推:青木堂主,发了胖的罗密欧,
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河