五千年(敝帚自珍)

主题:关于《字表》我也不得不说几句 -- 类反词典

共:💬38 🌺88
分页树展主题 · 全看首页 上页
/ 3
下页 末页
  • 家园 关于《字表》我也不得不说几句

    字表的研究号称历时8年,无数专家呕心沥血之作。但是,如此一个影响十多亿人的标准,发布时却竟然短短数页,而其中的说明满打满算不过2-3页而已,且都语焉不详。最简单的,为什么这一级字表要这3500字?为什么这些字要在上面而不是别的字?比如,“囧”字在Google中搜到29.2M网页,而“躏”字只有134K网页,为何“囧”不在而“躏”在?所有这些选择,都必须要有定量的数据支持。最简单的,字频表总得要有一个吧?稍复杂一点,每个字可组的所有词、以及每个词的词频,这些都可以非常容易地说明问题。更学术一点的,每个字的分义项统计、被误用错用的情况统计、教学复杂度(平均学习时间)、以及义项演变历史、字形演变历史等等,这些数据都可以支持对字表的修改。对字形的修改,同样,带勾底木和无勾底木各有多少个字?有多少学生学习时遇到疑问?有多少教师遇到疑问?对照教学实验效果如何?......

    对于这样一个影响十多亿人的标准,还有一个很重要的评价就是其经济指标。一般地说,不修改每年全国多支付多少钱?修改后每年节约多少钱?修改的成本是多少?如果没有这样的估计,如何让人评价你的成果?

    对于这样一个影响十多亿人的标准,如果没有百十篇科技论文的支持是不可想象的。以中国现在的灌水风气,整个千把篇都是不成问题的。支持其内容的附录和参考文献不整个千把页你都不好意思拿出来。但是现在我们看到了什么?一个没有任何定量数据的标准!还有很多号称业内人士要求反对的人给出理由!我在此只能引用Landau评价民科的话:

    要指出你文章中的错误是很困难的,因为你从一开始就几乎没有对的地方

    我相信群众的眼睛是雪亮的。专家如果能够拿出过硬的数据支持,我相信会获得绝大多数人支持的。但现在有什么?什么也没有!这让我们如何支持你?

    有真才实学的成果,大家都能看出来的。滥竽充数的专家,大家也都能看出来的,虽然没有人能“指出你的错误”。

    另有一些补充在下面的帖子里面:

    类反词典:你没说到点子上

    通宝推:johny,唐家山,无事忙,晨枫,

    本帖一共被 1 帖 引用 (帖内工具实现)
    • 家园 花赞一个 给人感觉不严谨

      8年都具体干啥了,就是收集资料库?

    • 家园 信息分享

      外链出处

      外链出处

      知网的。

      • 家园 语言的信息研究

        知网上的东东确实可怕,词频统计什么的俺还可以理解,效用函数什么的俺头大。

        还是这个恶搞比较畅快人心!

        网友自创汉字恶搞整形 "修正"英文字母(图)

        算了,不会链接,直接上地址吧!

        http://news.163.com/09/0902/02/5I61IS7T00011229.html

    • 家园 炸弹一枚,敬请诸位朋友笑纳

      惊喜:所有加你为好友的,在本帖先送花者得【通宝】一枚

      鲜花已经成功送出。

      此次送花为【有效送花赞扬,涨乐善、声望】

    • 家园 专家开始后退

      外链出处

      现在好奇的是前段时间那个67%的谣言是怎么造出来的,究竟是有人NC无极限,还是故意黑教育部的?

      另外:

      谢谢:作者意外获得【通宝】一枚

      鲜花已经成功送出。

      此次送花为【有效送花赞扬,涨乐善、声望】

      • 家园 他们一定没有看到我的帖子

        此外,还有对我们整体工作程序是支持的。

        就这样的没有任何定量数据支持的“整体工作程序”,如何让人支持?

      • 家园 67%不是谣言,是王宁教授在《新华访谈》亲口主动说的

        [王宁]这次的意见从总体来讲是这么一个状况,根据我们从正面搜集来的意见的统计,赞成的占67%,反对的大概占6%,其他的也提了一些不相干的,但是跟字表也有一定关系的意见,我们都对意见进行了整理,大概集中在这样几个方面:[08-2110:41]
        外链出处

    • 家园 说得好,从专业的角度进行分析,花一个。
    • 家园 说得没错!

      现在这些所谓的“砖家”真是没救了。

      要指出你文章中的错误是很困难的,因为你从一开始就几乎没有对的地方

      这句好。

    • 家园 看了这文章我气儿不打一处来!!!

      竟然已经被人通宝推荐过了...

      还有地方讲理嘛???!!!...

      ...我想宝推!可怎么办呀?...

    • 家园 技术问题而已

      首先,真要拿出来蒙你,也是很简单的

      然后,以Google为例,躏字少,囧字多,恐怕无法成为证据

      毕竟在正式书籍、文件、材料中,恐怕结论刚好相反

      最后,统计学本来也是可以用来骗人的

      • 家园 你没有看懂我的意思

        1、我以“囧”举例,显然不是真的要求把这个字放到一级字库。这字进不进字表,与我何干?但制表者是否对此类现象加以关注和说明将点出很多问题。

        2、以你的意思,这个字表竟然可以无视口语和论坛、网页的需要,只要符合正式书籍、文件、材料就好了?如果是这样的话,我只能说这个观点出自腐儒认正朔的理论。很遗憾,从理论上来说,我国现在人民才是正朔。也许你并不是这个意思,但我相信做这个表的人一定有很强的这个意思,支持这个表的人亦如此。可怜毛倾举国之力数十载,却仍未革去这腐儒之气,让它死灰复燃。

        再说说统计学。

        统计学可以骗人,在学术界混的人谁都很清楚。咱博士论文附了20篇论文,对cooking data之技也算是略知一二。但是,这是一个道德底线。西方学术界那么多年,难道他们不知道这个问题?他们仍然采用这套程序,只能说明目前尚没有更好的办法。

        无论你如何cooking data,毕竟说明你仍然是依据客观规律在做事。大家都不是傻子,你搞出来的数据是否合理、哪里用了技巧一看便知。但是如果你连这最后的遮羞布都不要了,连cooked data都不给,这能说明什么问题呢?对真正有良知的人来说,数据和统计都是狗屎。但我到哪里找有良知的人?我有如何确认你是有良知的人?

        我已经说过,他们只要有3-4篇数据充分的论文覆盖字表修改的大部分内容,我就不说什么了。至于如何cook数据、最后字表修改成啥样,与我何干?我的专业和这个在第6-7杆子的时候才打得着。

        对王教授的定性研究我无评价的资格。依据其发表的论文著作和别人的评价,我还得承认,她在该领域的定性研究方面是数一数二的。但是,作为一个影响十多亿人的政策的依据,仅仅是定性研究是远远不够的。定性研究不可避免带有人的偏见。以定性研究为依据的政策,必然是人治。我们号称现在是法治社会。法治,不仅仅是法律那一张纸。现在已经是21世纪,很多事情都是在优化小数点后多少位。在这种情况下,不用精确的定量分析来指导法律和政策的制定,如何能够有好的结果?

        • 家园 技术问题还是归技术问题

          首先,定量的数据对象如何选择?是选人民日报、光明日报,还是八卦新闻、街边小广告?比例各占多少?

          就说网络,也是如此

          是新浪、雅虎,还是大法之类的网站?或者是QQ的聊天记录?

          对象选择的不同,得出的结论大相径庭

          再回到“囧”字,是一时的泡沫,还是就此进入人们的日常生活?

          其次,就说上网,现在上网的人群是什么样的人?

          是读报读书的人多,覆盖范围广?还是上网的人多,覆盖的范围广?

          相信你在学术界混得很久了,特别是社科界,同样的材料尚且会得到完全不同的结论

          所以,你说的所谓定量分析,只不过是忽悠手段高级而已

          到那个时候,更没有普通人说话的机会了

          专家会说:“这是定量分析,是数据说话,你懂吗?”

          于是文明棍便挥了起来,提出疑问的那人只得讪讪退去,惹得周围的人一阵嘲笑

分页树展主题 · 全看首页 上页
/ 3
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河