五千年(敝帚自珍)

主题:关于《字表》我也不得不说几句 -- 类反词典

共:💬38 🌺88
全看树展主题 · 分页首页 上页
/ 3
下页 末页
家园 关于《字表》我也不得不说几句

字表的研究号称历时8年,无数专家呕心沥血之作。但是,如此一个影响十多亿人的标准,发布时却竟然短短数页,而其中的说明满打满算不过2-3页而已,且都语焉不详。最简单的,为什么这一级字表要这3500字?为什么这些字要在上面而不是别的字?比如,“囧”字在Google中搜到29.2M网页,而“躏”字只有134K网页,为何“囧”不在而“躏”在?所有这些选择,都必须要有定量的数据支持。最简单的,字频表总得要有一个吧?稍复杂一点,每个字可组的所有词、以及每个词的词频,这些都可以非常容易地说明问题。更学术一点的,每个字的分义项统计、被误用错用的情况统计、教学复杂度(平均学习时间)、以及义项演变历史、字形演变历史等等,这些数据都可以支持对字表的修改。对字形的修改,同样,带勾底木和无勾底木各有多少个字?有多少学生学习时遇到疑问?有多少教师遇到疑问?对照教学实验效果如何?......

对于这样一个影响十多亿人的标准,还有一个很重要的评价就是其经济指标。一般地说,不修改每年全国多支付多少钱?修改后每年节约多少钱?修改的成本是多少?如果没有这样的估计,如何让人评价你的成果?

对于这样一个影响十多亿人的标准,如果没有百十篇科技论文的支持是不可想象的。以中国现在的灌水风气,整个千把篇都是不成问题的。支持其内容的附录和参考文献不整个千把页你都不好意思拿出来。但是现在我们看到了什么?一个没有任何定量数据的标准!还有很多号称业内人士要求反对的人给出理由!我在此只能引用Landau评价民科的话:

要指出你文章中的错误是很困难的,因为你从一开始就几乎没有对的地方

我相信群众的眼睛是雪亮的。专家如果能够拿出过硬的数据支持,我相信会获得绝大多数人支持的。但现在有什么?什么也没有!这让我们如何支持你?

有真才实学的成果,大家都能看出来的。滥竽充数的专家,大家也都能看出来的,虽然没有人能“指出你的错误”。

另有一些补充在下面的帖子里面:

类反词典:你没说到点子上

通宝推:johny,唐家山,无事忙,晨枫,

本帖一共被 1 帖 引用 (帖内工具实现)
家园 这句经典

要指出你文章中的错误是很困难的,因为你从一开始就几乎没有对的地方

家园 数据说话,定量优先,一定要花
家园 舍出两个宝,也要推一把

我也特烦这个新字表,纯属没事找事。

家园 嗯。应该有个详细的报告

比如一级字表所选的字说是覆盖百分比多少多少。那么要举出数据来源出处,比如某某论文。既然有了八年的工作,因有一个详细的总结,从而推出目前的结论,然后就该结果和论证过程征询意见。

家园 是应该有个详细的报告

  不过一二级字表的选择是老东西了,记得是当年从一段时间的人民日报上统计的使用频率,这次改的不多就不一定要再重复一遍,但改动的部分应该详细说明一下。

家园 说的好,这些专家连个专家的样子都没有

说的好,这些专家连个专家的样子都没有

家园 大多数统计是很快的

当年没有计算机,其统计难度可想而知,但老一辈专家做出来的东西现在仍然难有大的改动。可见当年的学术风气。而现在,象字频、词频这些东西,就是8小时也可以把所有的数据跑个几个来回了。但我们得到了什么?

其实,把这些数据严谨地统计一遍已经是很有意义的工作了。由于当年的条件限制,现在补充这些数据也是很有意义的。我倒是建议这些统计要做多、做好,从而排除很多人为因素。比如,为什么一级字表是3500字?为什么不是3721字?按理科是思维,优化的一级字表数是可以从统计数据计算出的,而不是人为指定的。

家园 送花得宝

惊喜:所有加你为好友的,在本帖先送花者得【通宝】一枚

鲜花已经成功送出。

此次送花为【有效送花赞扬,涨乐善、声望】

家园 字频表是有的

报告也不是没有

但不够详细, 太不主动

改动的文字, 里面还是有名堂

"囧"没有也很正常吧?

家园 这些砖家叫兽与民科的区别实在不大啊!
家园 我没有看到专家使用的字频表

这个如果使用了,必须作为标准的附件,否则有什么作用?还得列出字频表是以什么数据统计的,进行了什么样的清洗操作,等等。再说,作为专门研究这个的,字频表这些工具,应当是有多个的,不同的数据库、不同的统计方法,获得的表是有差异的。这些差异有什么意义,该如何加权、取舍,都是必须说明的。但我们何尝看到一丝这样的信息?

再说了,字频表、词频表是任何一个人都想到的的东西,也是现在计算机可以快速统计的东西。作为专家,如果仅仅使用这些工具,那还要专家干什么?开发和使用更高级、更专业的工具是专家的职责。但现在我们不仅没有看到这些工具,连基本的字频表、词频表都看不到。

最后说一下这些所谓姓名用字。现在中国似乎没有任何“人名用字标准”,所以理论上任何GBK中的字都可以作为人名用字。但现在被他们这么一规定,其潜在的意思就是,以后我们只能用这几千个字取名字了??取名选字为什么要收到他们的这个限制?这我第一个要反对。我的名字有一个字不在表中,即使这个表的以后扩充四级五级,我的这个字也不大可能在其中。那以后我的名字竟然是非法的了?!

这个表既然把“通用”二字放在开头,就只应当管通用的事,名字这种专用场合关你什么事?你管那么多干什么?

家园 提议由大众决定是否需要改;由专家决定怎么改

可以模仿陪审团制度

普罗大众宣判现行字表是否必须修正

如必须修改,有大众和专家互动确定修改原则

专家的工作在于根据修改原则,提出修改意见,并阐述理由

家园 语料库本身无法作为附件

我的看法是: 字表提供了一些解释, 但远远不够. 这个意见其实和你没什么分歧.

  • -- 系统屏蔽 --。
全看树展主题 · 分页首页 上页
/ 3
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河