五千年(敝帚自珍)

主题:【原创】为什么汉语是世界上最先进的语言(上) -- 冷酷的哲学

共:💬1516 🌺8640 🌵163
全看树展主题 · 分页首页 上页
/ 102
下页 末页
家园 你说的那仅仅是汉语的一种组词方式,比如“东西”这个词你就

你说的那仅仅是汉语的一种组词方式,比如“东西”这个词你就无法用这个方式来解释。

家园 不是“逸马杀犬于道”么?说的是欧阳修

欧阳公在翰林时,常与同院出游。有奔马毙犬,公曰:“试书其一事。" 一曰:"有犬卧于通衢,逸马蹄而杀之。"一曰:"有马逸于街衢,卧犬遭之而毙。"公曰:"使子修史,万卷未已也。"曰:"内翰云何?"公曰:"逸马杀犬于道。" 相与一笑。《唐宋八大家丛话》

家园 这种词可以称为固定短语,数量很少

和汉字在一个数量级上,数量固定而且很难自造,和单字词实际上是一种东西。相对英语那种百万词实际上可以忽略。

家园 对于数学来说,符号不是关键

英文字母早就不够用了,又用上了希腊字母,希腊字母不够,再用上希伯来字母,还生造了很多符号,例如积分符号等。

即使这样,还是有很多概念使用了重复的符号,不结合上下文根本不知道是什么意思。

家园 希伯来字母?

对数学了解不多,就我所学过的,好像没见过哪个是希伯来字母啊。

希尔伯特不就认为数学本质就是公理化的符号运算么。虽然是一家之言,怎么说也不能算不是关键啊!

家园 出处可疑

不知河友有没有人读过《唐宋八大家丛话》。明治时代日人增田贡编有《唐宋八家丛话》,不载此事。某度害人。

家园 阿列夫

无穷大的等级

家园 信息熵的含义

100/9即11个汉字

你没有理解信息熵的含义。信息熵的含义是说平均每写一个汉字需要问几个yes or no,而不是每个汉字包含多少信息。所以你这个计算根本就不对。

-------------------------------------

关于cost我是先有体会,才开始寻找理论。

我女儿8岁,学校里做过测试,在美国的同龄人中,数学能力是99%的水平,英文的能力是88%的水平。放到中国,我觉得她的数学能力最多中等偏上水平,但是阅读和写作的能力可以远远超过同龄的孩子。具体来讲,从2年级开始每天阅读1本1-2cm厚的书。最近学校组织学生写小说,她一气写了15页纸。在中国,一般的学生估计要到4年级以后才有同等的阅读和写作能力。

家园 是你没有理解信息熵的含义

英语法语德语信息熵为什么都是4点几?能大于6吗?汉字的信息熵为什么是9点几?能超过16吗?能回答这几个问题才能说你理解了这个概念。

另外,知道摩尔斯电码吗?为什么它是不等长编码?

还有你女儿的例子,恰恰就说明了英语冗余度比汉语高,所以从量上看都比汉语大,但是真实信息量并没有看起来那样大。这跟上手容易不容易是两码事。

假设:看来很多人对那个所谓的汉字信息熵还很不理解

家园 确实没读过,又搜了一下,貌似出自"古今谭概"

参见:

http://mall.cnki.net/magazine/article/YDJG200207017.htm

家园 从自我出发的推论,中国古话说,能近取譬。

中国哲学的核心就是从这里出发,而西方相对来说更重视一个超越“我”之外的固定坐标。

家园 我本来就说的是相对容易

甚至都谈不上必要条件。

家园 看来很多人对那个所谓的汉字信息熵还很不理解

可以先看看这个,最早俺就是从这里基本弄明白的:

外链出处

有一定数学基础的可以看看这个:

外链出处

最后关于中英文翻译后的字数对比:

外链出处

再补充一个英文统计资料,统计样本是网络上的7000多亿单词,可以看到平均每个单词长度为4.79个字母(忽略频率的话是7.6)。

外链出处

摘抄一段说明“熵越低越先进”这种说法的可笑

“结巴文”和“空洞文”——举一个怎样“降低汉字的信息熵”的范例

“结巴文”和“空洞文”——举一个怎样“降低汉字的信息熵”的范例

由于有一些人觉得汉字的信息熵大了一些,或是“很大”,“效率不高”,“给通信带来麻烦”。我们其实可以通过一个“结巴文”运动把汉字的熵降低到1点几!动作呢,一点也不难,只要稍微认得几个字就成。

怎样操作呢?非常简单,就是用一个统一的字来到处填充我们的汉字,比如说,用“一”字。

凡是写文章的时候,有理没理都给它写几百成千个“一”字!比如“你好”,你要写成“你一一一……一一好”;“汉字”,写成“一一……一一一汉一……一字一……一”。这里省掉的省略号各代表一二千个“一”(越多越好啊)。

这个,不会难吧?比起绞尽脑汁地把"啼笑因缘"拼写为"ti23xiao40yin10yuan25",还“建立一个码本”之类要简单得多了,也容易得多!电脑里如果要写许多“一”也有许多简单办法。比如:预先写好一个带“一”的文件(5000个一组或者一二万个一组),写作的时候用拷贝的办法处处粘贴,就统统OK了,不多花什么时间!这样一来,汉字的熵很快就能降低下来,降得比英文的4点几还低得多!

这里有会计算的朋友,一定很容易算得出,在新的“社会节约熵运动”(这是我给“结巴文”的雅名)以后,其他的汉字间的相对频率不变,只有“一”字的频率从原来的百分之一点几迅速提高到百分之九十以上,因此新系统的熵也就降低到1点几,估计英文法文俄文什么的正常文字一般难以达到这么低的熵!先进吧?容易吧?

这样一来,汉字的熵很快就降下来,降得比英文的4点几还低!通过了这个运动把汉字的熵降低到1点几,冯志伟先生一定能大大地提高系统的通信效率吗?以前他说:“如果我国在信息通信网络建设中,在计算机系统上以汉语拼音作为信息的载体,由于拼音字母的熵比汉字的熵小得多,将会大大地提高系统的通信效率,更有利于国际交流。”现在我们这种“节约熵型新文字”——(“结巴文”)熵又比拼音字母的熵小得多了!1点几!嘿。

“结巴文”有没可能实行我就不知道了。它也许有点长,但是,冯先生从没说过怕长,他就是怕熵大,我发明这“结巴文”就能专治“熵大”。

写那么多“一”并没有要求大家照念,凡是看到“一”,一定一定要跳过去(就是偶尔念出来了,大家也会原谅吧),并不浪费说话时间,不过写的时候还就是要多多写!它们看起来不大雅?没关系,我还可以卖一个专门消除“一”或者空格的软件,收到的文章真要读了就把“一”或空格消除掉(当然WORD也有这功能,不过不太高效吧)。

我还知道这里有人响应冯先生的号召多写空格(什么词之间要有空格),那也差不多能起作用,如果结合起来,也可以不写“一”而写空格,不过要多写才能起效果,要能统一行动,大家来一个竞赛,看看谁的文章里“一”最多,或者空格最多!考虑到冯先生发明加空格在前,我还建议加空格,名称也从“结巴文”改为“空洞文”。还可以制定一下规则:名词和名词间(10000个空格),名词和动词间(8000个空格),……等等,这样机器翻译快,什么傻机器全会断词啦!

这,当然只能是一种幽默,冯志伟先生们不知道电脑和通信的基本规则,说来说去尽是些荒唐的话。其实通信的效率和码长多大没有什么大关系——熵大也没什么影响码长的,电脑从发明起始就从没用过那根据熵值制定不等长码的编码方案(倒是压缩文件方面熵是有一些用处的)。

我建议实行的这种“结巴文”中,由于处处是“一”(或者处处是空格的空洞文),熵降低到1点几,甚至可以到0点几,汉字的“平均码长”也可能降低到了1点几(如果他们决定要用不等长码的话)。可是这种熵低得比英文还低的“结巴文”或“空洞文”所带来的肯定是更多的麻烦,首先是传输的过程一定漫长得很,效率低得多!

文本的传输耗费,关键要看的是:整体文件有多少大,而非其熵的大小。

大家不要以为“结巴文”或“空洞文”只是幽默,改进汉字的编码(用拼音加数字代替汉字的“啼笑因缘”法),冯、尹联手发明的(把"啼笑因缘"拼写为"ti23xiao40yin10yuan25"之类)的办法就是和我说的“结巴文”一样和传输效率南辕北辙、背道而驰。

汉字的码长是英文的两倍,可是相应的汉字文本的字数比英文的一半还少得多,也就是说,在总的文本字节数上,汉字决不落后。

英文在通信时并没有占到什么优势。

至于这里有人举ASCII有“用了7位,第8位留作校对用”来证明英文有优势更是叫人笑掉大牙。我不妨再多浪费一点时间在这里掉一下书袋给一点解释它为什么可笑。

不错,一开始ASCII是7位就够了,第8位也确实留给校对过。但是到了1980年前后,美国IBM公司就发现:其实这专门留着的第8位职能实在浪费,于是有了扩展的ASCII,8 位全用上,新增加的那一部分主要是以前认为不需要而后来觉得需要的符号和制表符。这个方案很快就普及了——请注意这是1980年前后的事,也就是说早在冯先生开始学习“熵”以前的多年,美国人早就不把第八位专门留给校对了。这里如果有早期用过汉字经常打印出一堆奇怪符号的朋友就知道,那一些奇怪符号是制表符,它和中文的地址“共享”——如果切换到中文的指令没有生效,系统还把中文汉字作为ASCII看,就打印(或显示)出那个东西,所谓“乱码”。有一些文章闻风捕影地说,这种乱码是因为中文没有第8位校对,错误了,所以产生乱码——企图以此证明汉字的“问题”。其实那是程序里切换指令因为某种原因失效引起的,和校对与否毫无关系,更不是中文特有的。不过由于早期的电脑系统是英文的系统上开发起来的,中文的接口非常混乱(国家没有组织人员开发是一个重要原因),确实使得程序运行有一些缺点。现在早就没这种事情了!

还要鼓吹“用了7位,第8位留作校对用”是英文优点的人们,你们的孤陋寡闻又喜欢胡乱评论真的是叫人不知道怎么和你们辩论!一边还要给你们讲课!


本帖一共被 1 帖 引用 (帖内工具实现)
家园 文字信息熵是个非常直观的概念

文字信息熵是个非常直观的概念,其核心就是猜出下一个字符需要回答几个Yes or no的问题。为了有效率,问的时候会先问常用字。问题一层一层排列出来就是一个决策树。

对于一个只有0和1的符号体系,只需一次问答,信息熵就是1。使用英文符号体系,决定一个字母平均需要回答4.05个yes or no的问题,信息熵是4.05。对于汉语符号体系,决定一个汉字平均需要回答9.65个yes or no的问题,信息熵是9.65。

-----------------------------------------------------------

信息熵大的语言,决策分支就多,决策树就大。这导致一些问题,比如:

1.决策次数增加,决策错误的可能性也增加,导致表达不准确。

2.交流的时候,把更多的精力放在语言本身,而不是语言背后的逻辑。

3.训练决策树的代价太大。小孩子迟迟无法开始阅读和写作。

4.训练出某种简化的决策树。好处是容易学,代价是表达的精度下降。

家园 这个问题其实很简单,背诵一下乘法口诀表就行了

请分别用汉语,英语,法语,日语,俄语,西班牙语等背诵一遍

全看树展主题 · 分页首页 上页
/ 102
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河