五千年(敝帚自珍)

主题:【原创】试论汉字的科学性(二) -- 大西洋14

共:💬68 🌺142
全看分页树展 · 主题 跟帖
家园 关于这篇的主题,其实是单个汉字所含信息量的问题,

好的地方,像你说的单个汉字包含的信息量大,自然打印文本看起来就少。

坏的地方,每个汉字的笔画数就要增加,换句话说,就是识字成本在增加。

在信息化时代这就意味着汉字的信息量过大,就意味着单个汉字需要使用双字节以上的编码方案,结果就是从gb2312发展到gb18030,到目前为止仍无法解决问题(历史上的常汉字可能在三万个以上,全部加起来六万个也不稀奇)。

对汉字的这个特点,是好是坏的很难定论。

http://ling.cuc.edu.cn/htliu/feng/01-01.htm

现在要做这项工作,非常简单,只有要语料库即可。比如说这个:

http://www.fanren8.com/simple/index.php?t20030.html

如果说现代汉字的数字化还算好办的话,古汉语则基本上就是灾难。极限熵根本没法计算。

另外,英国人如果不是半文盲的话,莎士比亚应该还可以看懂的……

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河