五千年(敝帚自珍)

主题:【原创】为什么汉语是世界上最先进的语言(上) -- 冷酷的哲学

共:💬1516 🌺8640 🌵163
全看分页树展 · 主题 跟帖
家园 为什么汉语是世界上最先进的语言(补):实验数据

正如我前面所说。我写这整篇文章的目的并不是为了让大家确信汉语就是至尊无敌的最先进语言。而只是想用一种比较极端的叙事方式来反对逆向民族主义者贬低汉语的论调。这里提供一些真实数据来提供佐证。同时也能防止矫枉过正,免得有人看完前两篇后觉得汉语是其他语言望尘莫及的先进语言。

实验数据

事实上我希望大家首先明白一个道理,现在实际上的主流语言都经过了几千年的进化,虽然各自之间有很多差距,但是到最后,大家都接近了一个极限。这个极限就是人类大脑的运转速度。因此,先进也好,落后也好,在现在这个时代,差距并不大。

汉语表意效率

我们前面说到汉语表意效率高。但是到底有多高呢?

2011年法国里昂大学做了一个实验。

http://www.time.com/time/health/article/0,8599,2091477,00.html

http://ohll.ish-lyon.cnrs.fr/fulltext/pellegrino/Pellegrino_2011_Language.pdf

这个实验里,研究者找了59位不同语言使用者,其中包括英语、法语、德语、日语、汉语、意大利语和西班牙语。为他们提供了20段文字,这些文字都翻译成各自的语言。然后请这些人分别用正常语速朗读。研究者全程录音。

然后研究者计算所有音节数量,计算朗读中表现的义项(表意的基本单位)的数量,然后得出结论。当然,这个实验并不能完全准确地表现各个语言的差异,但是还是可以用来定性的。

其中,汉语使用者信息密度为0.94,位居第一。英语信息密度为0.91,显示出英文相比于其他欧洲语言的优越。西班牙语效率明显不如前两者,信息密度0.63。而日语信息密度为0.49。(法0.74、德0.79、意0.72)

此处信息密度是通过计算每个音节所包含的义项数量来获得的。由于义项的数量是从原始文本:英文版里统计的。而翻译之后有可能会增加或减少义项。为了防止翻译过程中的扭曲造成数据标准不统一。各个语言的文本都被单独翻译为越南语,然后与各自越南语文本中每个音节所包含的义项数量相除,最终得到比较公平的数据。

另外需要注意的是,此处的“音节”是欧美语言学的定义,粗略地说就是一个元音/韵母(或几个连续韵母)以及周边的辅音全部算作一个音节。比方说英文单词诸如Bliss算作一个音节,而To也算作一个音节,实际上一个音节发音所需的时间是不等的。而汉语和日语是没有那种不带韵母的轻音的,在信息密度计算上就比较吃亏。所以总体上说,欧洲语言的表意效率应该比显示出来的更低一些。在主要语言中,汉语表意效率第一,应该是没有多少疑问的。(顺便,按语言学的音节定义,最长的单音节英语单词是Strengths)

值得注意的是,可能由于汉字与读音是分离的,理解和朗读无法同步进行,所以用汉语朗读,就会比较慢。里昂大学的这个实验中,汉语朗读者每秒朗读5.18个音节。大大慢于其他语言(英6.19,法7.18,德5.97,意6.99,日7.84,西7.82)。因此在朗读中,汉语传递信息的效率比较低,换算出来的朗读信息传递效率为英1.08、法0.99、德0.90、意0.98、日0.74、中0.94、西0.98。不过这个研究也受到了一些批评,觉得做的太糙了,而且有些地方不能自圆其说。比如按文中数据明明日语表意效率明显低,但作者又说其实一分钟内各个语言表达的信息量是差不多的。

汉语语音速度与表意速度

那么汉语说话速度呢?我们来看这篇论文:http://ldc.upenn.edu/myl/llog/icslp06_final.pdf

其中图1显示,根据一些谈话样本,当去掉沉默与噪音占据的时间后,英语会话者每分钟一般能够说160-280个词。汉语会话者大致是250至400词(这里不是字)。这差不多是普通人不受思绪影响的最高语速。所以可以看出,汉语的理论最高信息传递能力是远远高于英语的。

但实际上受限于思维速度,汉语的语速并没有那么恐怖。以下这篇论文研究了在不同语速下听众正确听得每个字的概率。

http://www.sciencedirect.com/science/article/pii/S0169814104001581

一般广播节目的语速在4.3字每秒左右。也就是每分钟260字上下。高于这个数字,就可能会听众接收语音时听错。从上文可以看出,年轻人在对方语速达到约650字每分钟时(即吐字时间缩短60%)仍然能保持90%以上的正确接收率。但是老年人就会降低到约70%。可以看出这个速度实际是受限于大脑的处理速度。中国好声音的华少,是47秒说350个字,也就是速度达到了446.8字每分钟。这个速度上能说得字字清晰,这是很厉害的。

英文新闻播音一般在150-180词每分钟(当然,也取决于词的长度)。根据10个小时的法庭录音的数据结果(http://languagelog.ldc.upenn.edu/nll/?p=1255),可以看出美国大众90%的情况下说话速度不会超过200词每分钟,98%的情况下不会超过225词每分钟。平均水平差不多是160-170词每分钟。同一来源统计每个词差不多1.38音节(因为仅靠10小时庭审记录统计,所以不会特别准确,这里就是看个大概。)

所以,基本上英文新闻播音一般每分钟207-248.4个音节左右。这与庭审记录中平均一分钟226个音节接近。

英文播音平均每分钟207-248.4个音节与汉语播音平均每分钟240-260字相近。根据里昂大学的研究结果,汉字每音节信息密度略高于英文。所以大致上看,汉语交流的效率略高。

但是这都是基于非常粗糙的数据与估算。不是很给力。

顺便,随着交流的日益深入,人类说话的速度实际上在加快。40年前美国一般语速是145词每分钟。如今是160-170词每分钟。中国60年代播音185字每分钟,如今是240-260字每分钟。这也许是信息的丰富让人脑的处理能力上升的缘故。

汉语阅读速度

在《Reading Chinese Script: A Cognitive Analysis》这本书里有一个章节《Eye Movements in Reading Chinese and English Text》专门讲阅读中英文时的眼球移动。这是中科院和悉尼大学的两位学者写的。这其中发现。熟练的中文阅读者能够每分钟阅读386个中文词汇(580个汉字),而熟练的英文阅读者可以每分钟阅读382个英文词汇。

汉语使用者眼睛每次凝视可以阅读1.71个词(2.57个汉字),每次凝视平均257毫秒。英文阅读者每次凝视可以阅读1.75个词,每次凝视平均265毫秒。

总体上说,中文阅读速度高于英文,但是两者完全在误差范围内。如果考虑信息密度的情况,则汉语更占优势。

汉语交流的速度

上面的数据感觉都很粗糙,也说明不了问题。那么有没有更给力的结果呢?

这一节基于宾西马尼亚大学的以下论文:http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3111932/

这篇论文找了8个汉语使用者和8个英语使用者。然后让他们两人一组。一组之中,一个人描述图片(描述者),另一个人根据描述来绘制(绘画者)。最后对比图片的准确度。同时观察描述者的语言。

最后结果是,汉语描述者明显比英语描述者先开始描述。描述者开始描述与绘画者开始绘画之间的时间差,汉语使用者低于英语使用者。绘画时间,汉语绘画者低于英语使用者。整体时间,汉语组显著低于英语使用者。所以汉语组所有都比英语组快。而且越复杂的绘画,汉语组就快得越多。

绘画结果,144次绘画。汉语组平均每次犯8.1个错误,其中描述者平均每次犯3.7个错误,绘画者犯4.4个错误。英语组平均每次犯13.25个错误,其中描述者平均每次犯8.5个错误,绘画者犯4.75个。两者的差距仍然在统计误差之内。所以并不算显著。(嗯?刚才谁说汉语没有英语精确来着?)

之后,为了考虑绘画者的技巧差异。让每个绘画者直接对照原图绘画。结果汉语组反而慢于英语组。

绘画期间,汉语组使用音节数显著少于英语使用者。两组语速(每秒音节数)接近(这个结论与前面的播音速度分析结果一致)。

这虽然是一个初步的实验,但是还是能看出汉语在交流上的优势的:用词更少,时间更短,描述精确水平差不多(如果不是更高的话)。这个实验还说明了……我国人民美术水平还有待提高……

至于欧洲主要其他语言,发音频率比英语高,信息密度比英语低,要那些语言在这方面超过汉语,我觉得可能性不大。

词汇量与生词辨识度

英文使用者的单词量和生词辨识能力可见1995年的以下论文:http://jlr.sagepub.com/content/27/2/201.full.pdf

其中,大学生平均自称单词量为16141,经过多项选择测试发现,平均能够辨识其中71%的词汇。也就是说平均大学生词汇量估计为11460个单词。老年人自称单词量为21252,经过多项选择测试,发现平均能辨识其中80%。也就是说老年人的词汇量大致为17002。

对于从未见过的词的正确理解概率,大学生为30%,老年人为39%。

没有找到中国的相关研究。不过这里是商务印书馆的《现代汉语常用词表(草案)》:

http://wenku.baidu.com/view/51636fec551810a6f5248676.html

大家可以进去看看自己的词汇量。我感觉大学生达到五万应该不成问题。而且这肯定不是一个人的全部单词量……

里面可能有你没见过的词,可以看看有多少你猜不出正确含义……我觉得除了极少数,确实没什么难度……

数字记忆

本节基于密歇根大学的以下论文:http://deepblue.lib.umich.edu/bitstream/handle/2027.42/26140/0000216.pdf?sequence=1

该文总结了三份统计结果。

第一份:幼儿园、一年级、二年级。中国儿童普遍比美日儿童能多记忆约两位数字。

第二份:6-7岁儿童,正背、反背、分组背数字,主要是为了否定“亚洲孩子生来数学就比美国人好”的假说。发现反背时中国儿童对数字记忆力不如美国儿童。

第三份:中美大学生对比。发现中美两国学生能够记住同等发音长度的数字。平均下来,中国学生比美国学生高两位数字(9.2对7.2)。

外国人学汉语

最后再来点小品,这里有几个外国人学汉语的体会。

http://benross.net/wordpress/journey-across-the-great-hump-of-china-debunking-the-myth-that-chinese-is-the-world%E2%80%99s-most-difficult-language/2009/10/29/

http://www.fluentin3months.com/chinese/

缺点:

第一体会:入门时听不出音调。

这完全可以理解,他们从来就没有在这个环境里生活过,对音调不敏感。中国孩子就没这问题。

第二体会:汉字实在是难记。

不过他们的总结是一旦学会了几百个以后,后面就容易起来了。这看来是公认的。

优点:

第一体会,没有时态和变形。

以至于有美国人说总体上这比学西班牙语还简单:西班牙语里“是”在一般时态下有如下变形:estar, estoy, estás, está , estamos, estáis, están, ser, soy, eres, es, somoms, sois, son

学过的词,变个形,就听不懂了。

顺便上周看到有个日志专门讲在论文的不同部分应该使用什么时态……中文从来没这种问题。

第二体会,容易推测生词含义。

这起源是,老美和一个中国人在网上聊。中国人问老美干什么呢。老美说我要考GRE,正背单词呢。中国人大惊,问你不是美国人吗,怎么还要背单词。的确,大家回头想想,上大学以后你查过几回中文生词?考研究生的时候难道还需要背中文单词?

苯 Benzene

甲苯 Toluene

二甲苯 Xylene

当然这几个也有比较统一的名称:Benzene、Methyl-benzene、Dimethyl-benzene。奈何老美嫌太长,反而用得少。

也难怪米国人上大学以后要查单词……

要是给中国人说腹膜炎,大家基本都知道是哪里出了毛病。跟美国人讲Peritonitis。一般美国人最多能估计出这是一种病,至于是哪里就不知道了。

再比方说“音节”大家一看就知道是什么意思,只是在学术圈里的具体定义可能有一些差异,这个词见到了根本不用背。英文Syllable,望文生义是不可能的。这个词来可以追溯到希腊语“音节”syllabē,而希腊语这个词来源于希腊语syllambanein,意思是集合、聚集。真是苦死英语使用者了。

不过平心,历史上英国长期是欧洲落后国家,所以英语里面实在是有太多的外来语了(法语、德语、拉丁语),单词的逻辑结构确实不怎么样。这并不见得是表音文字的通病。

这就让我想起美国的反智主义,这也许与民众往往看不懂专业术语有关。

通宝推:桥上,黄锴爱李莹,我爱我家fh,snark,all4fun,忘情,Lioncat,浣花岛主,西电鲁丁,脑袋,唵啊吽,肥猫,岳阳,远航,kevgao,拿不准,花大熊,东方射日,老沛,铁手,南风,迷途笨狼,石头布,cctothere,李根,witten1,删ID走人,朝雨,jet,飞影,阴霾信仰,随性自在,积吉,hopeful,雪域骑兵,直到永远,mezhan,曾自洲,不远攸高,

本帖一共被 1 帖 引用 (帖内工具实现)
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河