五千年(敝帚自珍)

主题:【原创】给字表研制砖家们平平反 -- 常识主义者

共:💬44 🌺80
全看分页树展 · 主题
家园 【原创】给字表研制砖家们平平反

最近,有一群人肯定是郁闷的,八年来他们一直期待着今天的鲜花和掌声,可是最终得到的却是砖头和西瓜皮,这群倒霉蛋就是在网上被称为砖家和叫兽的文字学家们。故事还得从他们编订的《通用规范汉字表》说起……

汉字是咋产生的呢?据说,最初我们的祖先们在这个星球上还很弱势,幼小的心灵也很脆弱,有啥不懂的事都习惯请示天老爷,可天老爷从来不来调研,活人也没机会上访,所以只好以书面报告的形式进行沟通,于是甲骨文就诞生了。后来发现甲骨文不但是和天老爷沟通的有效工具,人间也是很需要的。比如,天子打了胜仗自然是希望流芳百世的,但是人民群众往往只对传播天子后宫的八卦消息感兴趣,天子的丰功伟绩没几天就没人提了,所以弄些符号刻在石头上或者铜鼎上传与后世子孙就很有必要了。人民群众之间也逐渐人心不古,做个买卖什么的往往空口无凭,需要立字为据了。于是,我们伟大的汉字就诞生了。

到了秦始皇统一六国,嬴政同志发现了一个很大问题,就是各地文字各不相同,自己的诏书很多人都看不懂。政令不出函谷关!这当然是不能容忍的,于是就搞了中国历史上第一个《通用汉字汉字表》,当然当时肯定不是这个叫法。关于这件事的重大意义以下省略5000字。历史上第二个《通用汉字汉字表》是李隆基同志搞的,不过因为这位兴趣太广泛,再加上忙着泡温泉,就没有很好的推广,其重大意义也就只能省略2000字了。

转眼间,就到了21世纪。尽管广大人民群众还是对嬴政先生的母亲、李隆基先生的夫人的八卦更感兴趣,但是文字学家们不是狗仔队,还是要干正事的,于是《通用汉字汉字表》出笼了。

这个《通用规范汉字表》收字8300个。需要着重指出的是,已经有群众批判砖家和叫兽们八年才搞出一个8300字的字表很没效率,但是实际情况比这些群众想到的还要糟,这8300字中的大概7000字实际上是早就有人弄完的。这就是国家语委、新闻出版署1988年3月25日发布《现代汉语通用字表》。《现代汉语通用字表》共收7000字,其中包括《现代汉语常用字表》的3500字。

如果你现在30周岁以下,在中国大陆按照《义务教育法》认真地完成了小学和初中的学习任务,那么恭喜你,你应该已经掌握3500个汉字了。因为当时国家教委颁布的基础教育教学大纲规定基础教育阶段的识字量为3500字,完全等同于《现代汉语常用字表》。当然,如果你上学时经常逃学去打鸟、上课走神想小姑娘、下课贪玩不完成作业,你会的也许没这么多;另一方面,如果你早就立志在高考时要很拉风用甲骨文写一篇《站在女生宿舍的门口》的作文,你会的也许比这还多。

既然英特耐雄纳尔还没有实现,人类尚且分阶级,那么汉字分为三六九等也就不奇怪了。目前,汉字分为体制内的和体制外的,体制内的就是《通用规范汉字表》收录的8300字,体制外的就很多了,汉字总量现在说法不一,从47000到85000都有,但不管怎么说,体制外的比体制内的还是要多不少的。

体制外进入体制内不容易,体制内也是要分阶层的。体制内的8300字又划分为三级:一级字3500个,是使用频度最高的常用字,主要满足基础教育和文化普及层面的用字需要。二级字3000个,使用频度低于一级字。一级、二级字合起来共6500字,主要满足现代汉语文本印刷出版用字需要。三级字则是一些专门领域,包括姓氏人名、地名、科学技术术语、中小学语文教材文言文使用的未进入一、二级字表的较通用的字,共收字1800个,主要满足与大众生活和文化普及密切相关的专门领域的用字需要。(手懒,上面这段是直接抄袭的。)

这里出现了一个问题,是根据什么给汉字划分阶阶层的呢?当然不是根据财产多少,也不是根据种族性别,更不是根据砖家们的好恶,而是根据每个汉字的勤奋程度!对,就是勤奋程度。所谓字的勤奋程度,就是在一定的文字量中这个字出现的频率。这个字出现的频率越高,则它就越有可能进入体制内并且获得较高的级别。这个一定的文字量就是语料库,语料库的标准定义是:应用计算机技术存储语言材料的总汇。

为了更好的理解这个问题,我们先讨论一下中国男足的水平。(估计很多河友要齐声喊“吁”了,中国男足的水平还需要讨论吗?)水平这个东西,通常是要用以往的成绩衡量的。要知道,中国男足在过去可是胜过阿根廷、平过巴西的,要是拿这两场比赛成绩衡量,男足基本上就可以和国家乒乓球队并驾齐驱了。所以,这个以往比赛的范围是很重要,如果拿过去30年中国男足所有的国际A级比赛的成绩衡量,才有可能真正反映国足的水平。

回到正题,这个以往比赛的范围就相当于语料库,我们考察某个汉字的勤奋程度就是要在语料库里考察。这次《通用规范汉字表》的语料库的选择还是很科学的,所以最后评出的汉字劳模们还是禁得起考验的,充分反映各个汉字的勤奋程度。本次《通用规范汉字表》选择的语料库有五个:

1.国家语言文字工作委员会“现代汉语平衡语料库”,收录1919-2002年的语料,计9100万汉字,是本字表研制的主要依据。

2.北京语言大学“现代新闻媒体动态流通语料库”,收录2001-2002年15种报刊语料,计3.5亿汉字。

3.字表研制课题组建立的“教育科普综合语料库”,收录1951-2003年中小学通用教材及科普读物语料,计404万汉字。

4.字表专家委员会工作组建立的“儿童文学语料库”,收录1949年后出版的适合基础教育阅读的各种体裁儿童文学语料,计570万汉字。

5.字表专家委员会工作组建立的“中小学语文教材文言文语料库”,收录1949-2007年中小学语文教材中的文言文和普及性文言文语料,计560万汉字。

可是,大家都知道,评劳模是一个很有技术含量的工作,有时也不能光看干多少活,还要有一些其他的标准。比如,评劳模时往往要规定少数民族、妇女、知识分子的比例。同样,评选汉字劳模时也要对一些特殊岗位或特殊群体汉字给与照顾,所以《通用规范汉字表》研制时还考虑了以下四个因素,把一些可能不是那么勤劳但是却有着特殊关系或特殊地位的汉字也收入了表内。

1.1982年全国人口普查18省市抽样统计的姓氏人名用字,公安部提供的姓氏用字及部分人名用字。

2.民政部提供的全国乡镇以上地名用字,国家测绘局提供的部分村级地名、自然实体名称的用字。

3.全国科学技术名词审定委员会提供的56个门类科学技术术语用字,中国社会科学院语言研究所提供的33个门类的科学术语用字。

4.《现代汉语词典》(第五版)、《新华字典》(第十版)、《中国人名大辞典》《中国地名大辞典》等工具书。

---------------------------------------------------------------------------------

尽管砖家们已经考虑的很全面了,但是网络时代挨骂总是难免的,下面就来说说砖家们挨骂的几个主要话题。

第一个:扩招

这次的《通用规范汉字表》与1988年的《现代汉语通用字表》相比,最直观的一个变化就是扩招,从原来的7000猛增的到8300,增加了1300字。不过,实际情况是扩招了1335个字,原来的7000字里面有35个字因为不思进取、自甘堕落已经被开除了,为体制外的35个汉字提供了机会。

为啥要扩招呢?砖家的意见是说,进入新世纪以来,中国社会语言生活发生了很大变化,社会用字的范围发生了很大的变动,群众的文字观念和需求出现了多元化、开放性的特点,所以要扩招了。砖家们还说:新增的1335个字主要是一些姓氏、人名、地名、科技术语和中小学的文言文用字。想想也对,现在群众们觉悟都提高了,讲民主、讲自由、讲个性了,起个名啥的在原来的那7000个汉字内都折腾不开了,90后们更是折腾得连汉字都不用了,直接用火星文了。就我看来,这个扩招的最少是没啥坏处的,扩招进来的汉字估计一般都是在三级字表里,规范后用时拿来挺方便的,的确能满足一部分人的特殊需要,大部分人不用也不碍什么事。

虽然扩招是有道理的,但是这次砖家们挨骂很大程度上却是因为扩招引起的,准确地说是因为几个字被扩招进来引起的。这几个罪魁祸首就是“氾”、“仝”、“谿”、“線”、“甯”等,这几个字没几个人认识,但是“泛”、“同”、“溪”、“线”、“宁”大多数小学生都认识,前者就是后者的的异体字或繁体字。体制外早已被打倒在地的繁体字竟然又被纳入体制内了?这还了得,我们的革命青年坚决不能答应!其实,在我看来,我们的很多革命青年可能连那3500个常用字都认不全,但是这丝毫不影响他们参与网上简繁之争口水仗的积极性和热情。所以,很多集中火力狠批砖家们倒行逆施的言论就出来,恕不一一列举了。

关于简繁问题,砖家们早就说明白了。为了维护社会用字的稳定,字表原则上不恢复繁体字;将类推简化的范围严格限定在字表以内,以保持通用层面用字的系统性和稳定性;允许字表以外的字有条件使用,但不类推简化。

按我个人的理解具体解释一下,原则上不恢复繁体字,这一点很明确,除了个别人之外没几个中国人认为应该全面恢复繁体字,砖家和群众在这一点上意见完全是一致的。原则外可能有一些要恢复,比如“氾”、“仝”、“谿”、“線”、“甯”等,为什么要恢复这几个字呢?因为这几个字原本也是姓氏,解放后搞简化字,就变成“泛”、“同”、“溪”、“线”、“宁”,别人姓了几百年甚至一、两千年的姓说改就改了,祖宗牌位上是一个姓,户口本上是另外一个姓,对于注重血脉传承的中国人来说,自然是不太妥当的,恢复这几个姓氏也是人性化的一个表现。当然,这几个字在字表里也明确规定了,只有作为姓氏用时才允许用繁体,其他用法时依旧是简体。比如,这家生了个孩子,就可以起名叫“氾富贵”,但是你要说“泛舟”就不能写作“氾舟”了。这个解释应该是说得通的,但可能有人马上提出异议,他姓“泛”的可以改回姓“氾”,我姓“张”的为什么不可以改回姓“張”?当然不可以,原因很简单,就是因为你们姓张的太多了,如果照此办理会产生巨大的社会成本。姓泛、姓同、姓溪是罕见姓氏,可能全国也就几百人,除了他们自己和周围的一些人,全国大多数人可能一辈子都不会用到“氾”字、“仝”字、“谿”字,改一下从整体上不会给社会带来太大的麻烦。但是,全国可能有几千万甚至上亿的张老师、张经理、张书记、张先生、张小姐,任何一个中国人身边可能都会有几个姓张的,如果大家统统改为姓“張”,社会成本就太巨大了。有的可以改,有的不能改,当然不公平,但是所有有常识的人可能都知道,几乎任何问题的解决方案都是次优方案而不是最优方案,砖家们只能有所取舍了。

关于简繁问题,还有一个类推简化的问题。啥叫类推简化?某个字形简化了,当这个字作为其他字的构件时如果也可以跟着简化,就形成类推简化。举例说明,龍”简化作“龙”,“壟”就要变成“垄”,这就是类推简化。砖家们说:将类推简化的范围严格限定在字表以内,以保持通用层面用字的系统性和稳定性;允许字表以外的字有条件使用,但不类推简化。举例说明:因为龍”简化作“龙”,所以“壟”可以类推简化成“垄”,因为“垄”是在8300字之内的。但是不能因为“龍”简化作“龙”、“馬”简作“马”,于是把“驡”类推简作“龙+马”,因为“驡”不是在8300字之内的,不能类推简化,但可有条件使用。

第二个:整容

砖家们挨骂最主要的还是因为给汉字整容,尽管我们的砖家们没去宇宙神国留学过,但是对给汉字整容还是很积极的。但是,积极的结果只换来广大人民群众5个字的评价:吃饱了撑的。在我看来,砖家们其实挺冤枉的,有些汉字的确有歪瓜裂枣的嫌疑,即使砖家们真的是吃饱了撑的,但是苍蝇也是专找有缝的蛋叮的。下面,逐一说说这些蛋的缝在哪里。

先说缝最大的,“蓐、溽、缛、褥、耨、薅”中的下或右部件以及“唇、蜃”由半包围结构改为上下结构。这个改动我认为是最有道理的,以“唇”字为例,半包围结构是个不伦不类的写法,如果改为上下结构,就成了标准的上声下形的形声字,从汉字的组字规则来说就完全规范了。

“亲(榇同)、杀(刹、脎、铩、弑同)、条(涤、绦、鲦同)、茶(搽同)、新(薪同)、杂、寨”下部件“木”的竖钩变竖。这个我觉得也很有道理,查一下古汉字就知道,这几个汉字下面的部件本来就是“木”字,只不过因为长期书写而演化出了那个钩。“木”是个常见汉字,而如果下面生出个尾巴来就不成字了。以“条”字为例,这个字的本意是植物细长的枝,“木”字底是最合情合理的了,现在这个字底就很不容易表达这个意思了。汉字的组合是有规律可循的,并且这种规律也是汉字的最重要的魅力之一。

“琴、瑟、琵、琶”的上左和的中下部件“王”最后一笔横变提。这几个字的改变我觉得主要是为了统一写法,很多汉字比如“班”、“球”、“理”,“王”字旁的最后一笔都是提,主要的目的应该是为了书写方便和字体的协调美观。现在“琴、瑟、琵、琶”和“徵”字中的“王”字旁的最后一笔也改为提后,就形成了统一的规则,及“王”字在做左侧或中间偏旁时最后一笔写为提。这种改动也有一定的道理,但是理由没有前两个那么充足,可以讨论。

“魅”的右部件和“籴、氽、褰、衾”的下部件的末笔捺变点。“巽(撰、馔同)”的上左部件“巳”的最后一笔竖弯钩变竖提。这几个改动可能没有太多字理上的原因,我自己写了一下这几个字,感觉捺变点或者竖弯钩变提的确更符合自己的书写习惯。不知道别人的感受如何,我只能说我自己比较认同这种改动。

“恿”的上部件和“瞥(弊、憋同)”的上左部件中横折钩变横折。这个改动我没弄明白,推测也许古汉字是没有那个钩的,也是书写中演化出了钩,现在改动是为了变回原型。

“毂”的左下部件“车”上添加一短横。这个改动我就完全不明白了,有明白的河友可以指教一下。

从这44个字的改动来看,一部分改动我认为是完全合理的,尤其是“唇”、“条”等常用字,改动是完全必要的。一部分改动有道理,但是可以继续讨论。一部分我没弄明白,但是我不认为是没道理的。最终结论就是:砖家们未必100%正确,但是也绝不是100%错误,更不是吃饱了撑的。

我仔细分析了我能查找到的所有反对意见,结论是95%以上都没有价值,这个问题我会专门写一篇讨论一下,这一篇主要是从正面论述一下,写在一起容易引起争议。

这篇文章基本上就是这几天来自己到处东抄西抄的结果,事实证明,没文化不可怕,没文化又不认真学习才是可怕的,只要好学俺这种外行也是可以写出貌似有点儿文化的文章的。

在这篇文章结尾的时候,我要感谢百度!感谢谷歌!感谢CCTV!感谢我媳妇(尽管她没帮我什么忙)!

通宝推:胡丹青,
全看分页树展 · 主题


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河