五千年(敝帚自珍)

主题:【原创】为什么汉语是世界上最先进的语言(上) -- 冷酷的哲学

共:💬1516 🌺8640 🌵163
分页树展主题 · 全看首页 上页
/ 102
下页 末页
    • 家园 为什么汉语是世界上最先进的语言(补):实验数据

      正如我前面所说。我写这整篇文章的目的并不是为了让大家确信汉语就是至尊无敌的最先进语言。而只是想用一种比较极端的叙事方式来反对逆向民族主义者贬低汉语的论调。这里提供一些真实数据来提供佐证。同时也能防止矫枉过正,免得有人看完前两篇后觉得汉语是其他语言望尘莫及的先进语言。

      实验数据

      事实上我希望大家首先明白一个道理,现在实际上的主流语言都经过了几千年的进化,虽然各自之间有很多差距,但是到最后,大家都接近了一个极限。这个极限就是人类大脑的运转速度。因此,先进也好,落后也好,在现在这个时代,差距并不大。

      汉语表意效率

      我们前面说到汉语表意效率高。但是到底有多高呢?

      2011年法国里昂大学做了一个实验。

      http://www.time.com/time/health/article/0,8599,2091477,00.html

      http://ohll.ish-lyon.cnrs.fr/fulltext/pellegrino/Pellegrino_2011_Language.pdf

      这个实验里,研究者找了59位不同语言使用者,其中包括英语、法语、德语、日语、汉语、意大利语和西班牙语。为他们提供了20段文字,这些文字都翻译成各自的语言。然后请这些人分别用正常语速朗读。研究者全程录音。

      然后研究者计算所有音节数量,计算朗读中表现的义项(表意的基本单位)的数量,然后得出结论。当然,这个实验并不能完全准确地表现各个语言的差异,但是还是可以用来定性的。

      其中,汉语使用者信息密度为0.94,位居第一。英语信息密度为0.91,显示出英文相比于其他欧洲语言的优越。西班牙语效率明显不如前两者,信息密度0.63。而日语信息密度为0.49。(法0.74、德0.79、意0.72)

      此处信息密度是通过计算每个音节所包含的义项数量来获得的。由于义项的数量是从原始文本:英文版里统计的。而翻译之后有可能会增加或减少义项。为了防止翻译过程中的扭曲造成数据标准不统一。各个语言的文本都被单独翻译为越南语,然后与各自越南语文本中每个音节所包含的义项数量相除,最终得到比较公平的数据。

      另外需要注意的是,此处的“音节”是欧美语言学的定义,粗略地说就是一个元音/韵母(或几个连续韵母)以及周边的辅音全部算作一个音节。比方说英文单词诸如Bliss算作一个音节,而To也算作一个音节,实际上一个音节发音所需的时间是不等的。而汉语和日语是没有那种不带韵母的轻音的,在信息密度计算上就比较吃亏。所以总体上说,欧洲语言的表意效率应该比显示出来的更低一些。在主要语言中,汉语表意效率第一,应该是没有多少疑问的。(顺便,按语言学的音节定义,最长的单音节英语单词是Strengths)

      值得注意的是,可能由于汉字与读音是分离的,理解和朗读无法同步进行,所以用汉语朗读,就会比较慢。里昂大学的这个实验中,汉语朗读者每秒朗读5.18个音节。大大慢于其他语言(英6.19,法7.18,德5.97,意6.99,日7.84,西7.82)。因此在朗读中,汉语传递信息的效率比较低,换算出来的朗读信息传递效率为英1.08、法0.99、德0.90、意0.98、日0.74、中0.94、西0.98。不过这个研究也受到了一些批评,觉得做的太糙了,而且有些地方不能自圆其说。比如按文中数据明明日语表意效率明显低,但作者又说其实一分钟内各个语言表达的信息量是差不多的。

      汉语语音速度与表意速度

      那么汉语说话速度呢?我们来看这篇论文:http://ldc.upenn.edu/myl/llog/icslp06_final.pdf

      其中图1显示,根据一些谈话样本,当去掉沉默与噪音占据的时间后,英语会话者每分钟一般能够说160-280个词。汉语会话者大致是250至400词(这里不是字)。这差不多是普通人不受思绪影响的最高语速。所以可以看出,汉语的理论最高信息传递能力是远远高于英语的。

      但实际上受限于思维速度,汉语的语速并没有那么恐怖。以下这篇论文研究了在不同语速下听众正确听得每个字的概率。

      http://www.sciencedirect.com/science/article/pii/S0169814104001581

      一般广播节目的语速在4.3字每秒左右。也就是每分钟260字上下。高于这个数字,就可能会听众接收语音时听错。从上文可以看出,年轻人在对方语速达到约650字每分钟时(即吐字时间缩短60%)仍然能保持90%以上的正确接收率。但是老年人就会降低到约70%。可以看出这个速度实际是受限于大脑的处理速度。中国好声音的华少,是47秒说350个字,也就是速度达到了446.8字每分钟。这个速度上能说得字字清晰,这是很厉害的。

      英文新闻播音一般在150-180词每分钟(当然,也取决于词的长度)。根据10个小时的法庭录音的数据结果(http://languagelog.ldc.upenn.edu/nll/?p=1255),可以看出美国大众90%的情况下说话速度不会超过200词每分钟,98%的情况下不会超过225词每分钟。平均水平差不多是160-170词每分钟。同一来源统计每个词差不多1.38音节(因为仅靠10小时庭审记录统计,所以不会特别准确,这里就是看个大概。)

      所以,基本上英文新闻播音一般每分钟207-248.4个音节左右。这与庭审记录中平均一分钟226个音节接近。

      英文播音平均每分钟207-248.4个音节与汉语播音平均每分钟240-260字相近。根据里昂大学的研究结果,汉字每音节信息密度略高于英文。所以大致上看,汉语交流的效率略高。

      但是这都是基于非常粗糙的数据与估算。不是很给力。

      顺便,随着交流的日益深入,人类说话的速度实际上在加快。40年前美国一般语速是145词每分钟。如今是160-170词每分钟。中国60年代播音185字每分钟,如今是240-260字每分钟。这也许是信息的丰富让人脑的处理能力上升的缘故。

      汉语阅读速度

      在《Reading Chinese Script: A Cognitive Analysis》这本书里有一个章节《Eye Movements in Reading Chinese and English Text》专门讲阅读中英文时的眼球移动。这是中科院和悉尼大学的两位学者写的。这其中发现。熟练的中文阅读者能够每分钟阅读386个中文词汇(580个汉字),而熟练的英文阅读者可以每分钟阅读382个英文词汇。

      汉语使用者眼睛每次凝视可以阅读1.71个词(2.57个汉字),每次凝视平均257毫秒。英文阅读者每次凝视可以阅读1.75个词,每次凝视平均265毫秒。

      总体上说,中文阅读速度高于英文,但是两者完全在误差范围内。如果考虑信息密度的情况,则汉语更占优势。

      汉语交流的速度

      上面的数据感觉都很粗糙,也说明不了问题。那么有没有更给力的结果呢?

      这一节基于宾西马尼亚大学的以下论文:http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3111932/

      这篇论文找了8个汉语使用者和8个英语使用者。然后让他们两人一组。一组之中,一个人描述图片(描述者),另一个人根据描述来绘制(绘画者)。最后对比图片的准确度。同时观察描述者的语言。

      最后结果是,汉语描述者明显比英语描述者先开始描述。描述者开始描述与绘画者开始绘画之间的时间差,汉语使用者低于英语使用者。绘画时间,汉语绘画者低于英语使用者。整体时间,汉语组显著低于英语使用者。所以汉语组所有都比英语组快。而且越复杂的绘画,汉语组就快得越多。

      绘画结果,144次绘画。汉语组平均每次犯8.1个错误,其中描述者平均每次犯3.7个错误,绘画者犯4.4个错误。英语组平均每次犯13.25个错误,其中描述者平均每次犯8.5个错误,绘画者犯4.75个。两者的差距仍然在统计误差之内。所以并不算显著。(嗯?刚才谁说汉语没有英语精确来着?)

      之后,为了考虑绘画者的技巧差异。让每个绘画者直接对照原图绘画。结果汉语组反而慢于英语组。

      绘画期间,汉语组使用音节数显著少于英语使用者。两组语速(每秒音节数)接近(这个结论与前面的播音速度分析结果一致)。

      这虽然是一个初步的实验,但是还是能看出汉语在交流上的优势的:用词更少,时间更短,描述精确水平差不多(如果不是更高的话)。这个实验还说明了……我国人民美术水平还有待提高……

      至于欧洲主要其他语言,发音频率比英语高,信息密度比英语低,要那些语言在这方面超过汉语,我觉得可能性不大。

      词汇量与生词辨识度

      英文使用者的单词量和生词辨识能力可见1995年的以下论文:http://jlr.sagepub.com/content/27/2/201.full.pdf

      其中,大学生平均自称单词量为16141,经过多项选择测试发现,平均能够辨识其中71%的词汇。也就是说平均大学生词汇量估计为11460个单词。老年人自称单词量为21252,经过多项选择测试,发现平均能辨识其中80%。也就是说老年人的词汇量大致为17002。

      对于从未见过的词的正确理解概率,大学生为30%,老年人为39%。

      没有找到中国的相关研究。不过这里是商务印书馆的《现代汉语常用词表(草案)》:

      http://wenku.baidu.com/view/51636fec551810a6f5248676.html

      大家可以进去看看自己的词汇量。我感觉大学生达到五万应该不成问题。而且这肯定不是一个人的全部单词量……

      里面可能有你没见过的词,可以看看有多少你猜不出正确含义……我觉得除了极少数,确实没什么难度……

      数字记忆

      本节基于密歇根大学的以下论文:http://deepblue.lib.umich.edu/bitstream/handle/2027.42/26140/0000216.pdf?sequence=1

      该文总结了三份统计结果。

      第一份:幼儿园、一年级、二年级。中国儿童普遍比美日儿童能多记忆约两位数字。

      第二份:6-7岁儿童,正背、反背、分组背数字,主要是为了否定“亚洲孩子生来数学就比美国人好”的假说。发现反背时中国儿童对数字记忆力不如美国儿童。

      第三份:中美大学生对比。发现中美两国学生能够记住同等发音长度的数字。平均下来,中国学生比美国学生高两位数字(9.2对7.2)。

      外国人学汉语

      最后再来点小品,这里有几个外国人学汉语的体会。

      http://benross.net/wordpress/journey-across-the-great-hump-of-china-debunking-the-myth-that-chinese-is-the-world%E2%80%99s-most-difficult-language/2009/10/29/

      http://www.fluentin3months.com/chinese/

      缺点:

      第一体会:入门时听不出音调。

      这完全可以理解,他们从来就没有在这个环境里生活过,对音调不敏感。中国孩子就没这问题。

      第二体会:汉字实在是难记。

      不过他们的总结是一旦学会了几百个以后,后面就容易起来了。这看来是公认的。

      优点:

      第一体会,没有时态和变形。

      以至于有美国人说总体上这比学西班牙语还简单:西班牙语里“是”在一般时态下有如下变形:estar, estoy, estás, está , estamos, estáis, están, ser, soy, eres, es, somoms, sois, son

      学过的词,变个形,就听不懂了。

      顺便上周看到有个日志专门讲在论文的不同部分应该使用什么时态……中文从来没这种问题。

      第二体会,容易推测生词含义。

      这起源是,老美和一个中国人在网上聊。中国人问老美干什么呢。老美说我要考GRE,正背单词呢。中国人大惊,问你不是美国人吗,怎么还要背单词。的确,大家回头想想,上大学以后你查过几回中文生词?考研究生的时候难道还需要背中文单词?

      苯 Benzene

      甲苯 Toluene

      二甲苯 Xylene

      当然这几个也有比较统一的名称:Benzene、Methyl-benzene、Dimethyl-benzene。奈何老美嫌太长,反而用得少。

      也难怪米国人上大学以后要查单词……

      要是给中国人说腹膜炎,大家基本都知道是哪里出了毛病。跟美国人讲Peritonitis。一般美国人最多能估计出这是一种病,至于是哪里就不知道了。

      再比方说“音节”大家一看就知道是什么意思,只是在学术圈里的具体定义可能有一些差异,这个词见到了根本不用背。英文Syllable,望文生义是不可能的。这个词来可以追溯到希腊语“音节”syllabē,而希腊语这个词来源于希腊语syllambanein,意思是集合、聚集。真是苦死英语使用者了。

      不过平心,历史上英国长期是欧洲落后国家,所以英语里面实在是有太多的外来语了(法语、德语、拉丁语),单词的逻辑结构确实不怎么样。这并不见得是表音文字的通病。

      这就让我想起美国的反智主义,这也许与民众往往看不懂专业术语有关。

      通宝推:桥上,黄锴爱李莹,我爱我家fh,snark,all4fun,忘情,Lioncat,浣花岛主,西电鲁丁,脑袋,唵啊吽,肥猫,岳阳,远航,kevgao,拿不准,花大熊,东方射日,老沛,铁手,南风,迷途笨狼,石头布,cctothere,李根,witten1,删ID走人,朝雨,jet,飞影,阴霾信仰,随性自在,积吉,hopeful,雪域骑兵,直到永远,mezhan,曾自洲,不远攸高,

      本帖一共被 1 帖 引用 (帖内工具实现)
      • 家园 英语的构造参考了汉文化

        但是汉语的起源和英语没有任何关系。

        例如,英语中有对奇怪的词:live和evil。两个词的词义合乎汉语:顺之者生,逆之者亡。

      • 家园 现在连羊年在国外都成问题了

        现在连羊年在国外都成问题了,汉语中“羊”是统称,翻译成英语就挠头了:山羊?绵羊?公羊?

      • 家园 有一点楼主可以加以补充

        非常喜欢这篇文章,有理有据。

        汉语的组词习惯对思维习惯的影响。

        汉语中大量的词语都是缩略词。所以,人们比较习惯于分类。

        比如,汽车,马车,自行车,脚踏车,摩托车。当人们不断说这些词的时候,很自然的强调“车”这个概念,或者分类。

        而英语,更习惯于从发音角度区分,所以很难培养分类的习惯。

        比如,car, coupe, sedan, bike, motorcycle。

        中国人强调人际关系,可能和这习惯也有一些关系。:p

      • 家园 为什么有长度超过几十个字母的德语单词??

         不懂德语,求解释.....

        德国最长单词已经遭废除,长度超过60个字母。

        外链出处

          这个单词拼写为Rindfleischetikettierungsueberwachungsaufgabenuebertragungsgesetz,意指一项牛肉检测法律,通常缩写为RkReUeAUeG。

          这项法律1999年制订,以保护消费者免受疯牛病危害。

          德新社4日报道,德国一家地方法院法官裁定,鉴于欧洲联盟已经不要求检测健康动物,因而德国不再需要这项法律。

          语言学教授阿纳托尔·斯特凡诺维奇说,这是“德语中最长的正式单词”。

          德语中有大量合成词,许多词仅使用缩写。斯特凡诺维奇说,这类长单词中,多数是法律用词,也有化学词汇。

          一个近50个字母组成的单词有望接任长度冠军。这个单词拼写为Donaudampfschifffahrtsgesellschaftskapitaenswitwe,意指多瑙河轮船公司船长的遗孀。

          不过,另一个36字母单词也有望夺冠,原因是它由德国权威词典《杜登词典》收录,使用频率更高。这个单词是Kraftfahrzeug-Haftpflichtversicherung,意思是机动车责任保险。

          长单词不属德语专有。《牛津英语词典》收录的最长单词有45个字母,拼写为pneumonoultramicroscopicsilicovolcanoconiosis,指一种肺病。

        • 家园 最后那个不是英语而是拉丁语
        • 家园 因为德语的构词法倾向于将短语整合成一个词,有点像汉语

          在英语里面遇到需要新词的时候要么引用别的语言里的词(转义或不转义),要么使用短语。德语则倾向于把几个单词连写,如最初熵的德语名字Verwandlungsinhalt就是由die Verwandlung(转变wandeln的名词形式)+der Inhalt(成分)组合而来的意思就是转变含量,还有那个著名的entgegengehen(过去分词是entgegengegangen,呵呵),实际上是entgegen+gehen来的,意思就是接近

        • 家园 这么长的单词

          在德国能一个字母不错的(不查辅助用书等)一次书写出来的,应该也不会有太多的人吧。

        • 家园 这其实并不难理解呀!

          德语里两个以上的名词(或动词的名词化)可以搭配在一起组成一个词组,成为专用名词,如大众(Volk)汽车(Wagen), 牛(Rind)肉(Fleisch)。

          象你举的例子,

          Rindfleischetikettierungsueberwachungsaufgabenuebertragungsgesetz,无非就是几个单词拼成的一个词组:

          Rind -- 牛

          Fleisch -- 肉

          Etikettierung -- 贴标签 (名词化)

          Ueberwachung -- 监控 (名词化)

          Aufgaben -- 任务,工作

          Uebertragung -- 移交 (名词化)

          Gesetz -- 法律,法规

          有时为了读着顺口一点,单词间加个"s"作为过渡。

          但如果说,“德国最长单词已经遭废除”,就很搞笑了。

          因为理论上这样的合成词可以随心所遇的造出来,谈不上哪个最长。另外,所谓“废除”指的是,这项法律于今年五月失效被中止。这个合成词本身是在草案中用的专有名词,实在是太拗口太别扭了,所以在该法案正式生效时,用的是英语化的名称, 根本谈不上遭废除:

          Gesetz zur (to the) Uebertragung der (of the) Aufgaben für (for) die (the) Ueberwachung der (of the) Rinderkennzeichnung und Rindfleischetikettierung

          本人虽然没有研究过语言学,但感觉这样生成合成词的方法,在汉语里比比皆是,如精神文明建设,妇女儿童权益保障法,中华人民共和国治安管理处罚条例等等。这方面汉语和德语应该是相通的,甚至有过之而无不及。

          看看这个是不是更狠? “中华人民共和国第十届全国人民代表大会常务委员会第十七次会议”

          • 家园 但由于字母文字的缺陷,这种构词法对象形文字更合适一些

            对于字母文字,综合构词法由于多次重复出现的字母,容易让人头晕目眩

          • 家园 我觉得在这个方面,德语像汉语,日语像英语

            汉语“高级词汇”几乎都是汉语基础词汇组成;德语也是。德语

            Krankenhaus看似比英语hospital要长,但却是kranken(病)和Haus(房子)组成的,反而好记。

            那hospital又是怎么来的呢?查字典发现源自法语,而法语又来自于拉丁,总之,hospital于日耳曼人的土话没有关系。至于当年的英国人为啥使用hospital而不是illness-house之类的日耳曼土话,估计又得说到诺曼征服啦。

            日本虽然没有像英伦三岛那样被大陆上来的人征服过,但是也有和英语类似的特点,就是“高级词汇”的构词法不是来自于基础词汇。例如“医院”,日语里面叫做「病院(byōin)」,但“病”却是「病(yamai)」。

            至于日本明治维新时候造的词,都使用汉语的构词法而不是日语自己的,怎么说呢,有点类似于美国人的五角大楼是pentagon 而不是神马five-angle house。

            • 家园 感觉英语里源自日耳曼人土话的有很多词比原义变低下了

              如“猪”,若说一个人是pig,那么还好,但若说是swine,那么就是明明白白的侮辱了。还有“肉”,若说meat那么就是中性的“肉”的意思,但若是“flesh”,那么就有“肉体”“肉欲”之类意思了。

              不过话说回来,貌似古法语实际上也是日耳曼语系(法兰克语),结果到现在完全成了拉丁系的语言,变化比英语还要剧烈得多的说。

            • 家园 这其实反映的是民族历史,倒不完全是语言

              英语大量吸收法语成分发生在诺曼征服时期,那时候法语是上层语言,用于宫廷政治和文化传承,而英语是下层语言,用于下层百姓的日常生活,语言像水向下走,自然是英语中大量吸收法语(当然换个角度看,最终讲法语的上层还是被讲英语的下层百姓淹没了,跟所有的方言岛下场一样,不管上层下层,但是这只是在岛上的法语族群的下场,而没有影响法语本身)。

              日语的情况类似,虽然没有发生类似于诺曼这样的征服,但是在整个东亚古代史中,中华文化一直是上位文化,汉语(确切地说是文言文)是东亚知识分子之间的国际交流语言,用于正式公文和记载历史),而日本文化是下位文化,只用于老百姓的日常交流,所以日语、韩语、越南语都大量吸收汉语词汇。

              而古代汉语族群长期处于文化中心位置,文化以向外流动为主,虽然也吸收了琵琶葡萄这样的外来词汇,但非常有限,且不是核心词汇。

              但进入近代以后,汉语至高无上的位置崩溃了,迅速沦为下位语言,西方文化在坚船利炮和文化优势的双重压力下大量涌入,下位语言大量吸收上位语言的各种成分几乎是不可避免的,于是很快地,洋泾浜这样的混合汉语就开始出现,与今天的日文英文情况类似。

              但是很有趣的是,在这个关键时刻,日本人首先站出来捍卫了汉语的纯洁性。天涯上有个著名的傻逼帖说没有日本人中国就不知道怎么说话(实际上这些词汇是日本人按中文词法用汉字创造的,就像一个日裔意大利菜厨师做出来的菜,当然是意菜而不是日菜),傻逼归傻逼,但现代中文词汇中日本制造的比例很高倒是真的。当时中华文化史上第一次处于完全的文化进口时期,正是这些日本制造的汉语词汇搭起了中国人与西方文化的桥梁,使汉语族群避免了大量直接吸收外来词汇。

              而今天,汉语已经度过了这个最危险的阶段,现代教育普及之后催生了全球最大的单一语言群体,足够的脑力资源,加上汉语本身的形声义优势,使汉语有能力将绝大多数外来概念转译吸收,源源不断引入汉语的外来词汇绝大多数都具备与基本词汇相似的词法逻辑,任何人只要熟练掌握汉语就非常容易理解接受,在概念的传播上无疑是最为有利的。

分页树展主题 · 全看首页 上页
/ 102
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河