近期网站停站换新具体说明
按以上说明时间，延期一周至网站时间26-27左右。具体实施前两天会在此提前通知具体实施时间

主题：关于《字表》我也不得不说几句 -- 类反词典

共:💬38 🌺88

老视野待整

分页树展主题 · 全看首页上页下页末页

家园
关于《字表》我也不得不说几句
字表的研究号称历时8年，无数专家呕心沥血之作。但是，如此一个影响十多亿人的标准，发布时却竟然短短数页，而其中的说明满打满算不过2-3页而已，且都语焉不详。最简单的，为什么这一级字表要这3500字？为什么这些字要在上面而不是别的字？比如，“囧”字在Google中搜到29.2M网页，而“躏”字只有134K网页，为何“囧”不在而“躏”在？所有这些选择，都必须要有定量的数据支持。最简单的，字频表总得要有一个吧？稍复杂一点，每个字可组的所有词、以及每个词的词频，这些都可以非常容易地说明问题。更学术一点的，每个字的分义项统计、被误用错用的情况统计、教学复杂度（平均学习时间）、以及义项演变历史、字形演变历史等等，这些数据都可以支持对字表的修改。对字形的修改，同样，带勾底木和无勾底木各有多少个字？有多少学生学习时遇到疑问？有多少教师遇到疑问？对照教学实验效果如何？......
对于这样一个影响十多亿人的标准，还有一个很重要的评价就是其经济指标。一般地说，不修改每年全国多支付多少钱？修改后每年节约多少钱？修改的成本是多少？如果没有这样的估计，如何让人评价你的成果？
对于这样一个影响十多亿人的标准，如果没有百十篇科技论文的支持是不可想象的。以中国现在的灌水风气，整个千把篇都是不成问题的。支持其内容的附录和参考文献不整个千把页你都不好意思拿出来。但是现在我们看到了什么？一个没有任何定量数据的标准！还有很多号称业内人士要求反对的人给出理由！我在此只能引用Landau评价民科的话：
要指出你文章中的错误是很困难的，因为你从一开始就几乎没有对的地方
我相信群众的眼睛是雪亮的。专家如果能够拿出过硬的数据支持，我相信会获得绝大多数人支持的。但现在有什么？什么也没有！这让我们如何支持你？
有真才实学的成果，大家都能看出来的。滥竽充数的专家，大家也都能看出来的，虽然没有人能“指出你的错误”。
另有一些补充在下面的帖子里面：
类反词典:你没说到点子上
通宝推：johny,唐家山,无事忙,晨枫,

本帖一共被 1 帖引用 (帖内工具实现)
- 你没说到点子上
- 复关于《字表》我也不得不说几句
  家园 花赞一个给人感觉不严谨
  8年都具体干啥了，就是收集资料库？
- 复关于《字表》我也不得不说几句
  家园 信息分享
  外链出处
  外链出处
  知网的。
  - 复信息分享
    家园 语言的信息研究
    知网上的东东确实可怕，词频统计什么的俺还可以理解，效用函数什么的俺头大。
    还是这个恶搞比较畅快人心！
    网友自创汉字恶搞整形 "修正"英文字母(图)
    算了，不会链接，直接上地址吧!
    http://news.163.com/09/0902/02/5I61IS7T00011229.html
- 复关于《字表》我也不得不说几句
  家园 炸弹一枚，敬请诸位朋友笑纳
  惊喜：所有加你为好友的，在本帖先送花者得【通宝】一枚
  鲜花已经成功送出。
  此次送花为【有效送花赞扬，涨乐善、声望】
- 复关于《字表》我也不得不说几句
  家园 专家开始后退
  外链出处
  现在好奇的是前段时间那个67%的谣言是怎么造出来的，究竟是有人NC无极限，还是故意黑教育部的？
  另外：
  谢谢：作者意外获得【通宝】一枚
  鲜花已经成功送出。
  此次送花为【有效送花赞扬，涨乐善、声望】
  - 复专家开始后退
    家园 他们一定没有看到我的帖子
    此外，还有对我们整体工作程序是支持的。
    就这样的没有任何定量数据支持的“整体工作程序”，如何让人支持？
  - 复专家开始后退
    家园 67%不是谣言，是王宁教授在《新华访谈》亲口主动说的
    [王宁]这次的意见从总体来讲是这么一个状况，根据我们从正面搜集来的意见的统计，赞成的占67%，反对的大概占6%，其他的也提了一些不相干的，但是跟字表也有一定关系的意见，我们都对意见进行了整理，大概集中在这样几个方面：[08-2110:41]
    外链出处
    - 复 67%不是谣言，是王宁教授在《新华访谈》亲口主动说的
      家园 原来是这么cooking data
      根据我们从正面搜集来的意见
      这样才搞到67%的支持，真是白活了......
- 复关于《字表》我也不得不说几句
  家园 说得好，从专业的角度进行分析，花一个。
- 复关于《字表》我也不得不说几句
  家园 说得没错！
  现在这些所谓的“砖家”真是没救了。
  要指出你文章中的错误是很困难的，因为你从一开始就几乎没有对的地方
  这句好。
- 复关于《字表》我也不得不说几句
  家园 看了这文章我气儿不打一处来!!!
  竟然已经被人通宝推荐过了...
  
  还有地方讲理嘛???!!!...
  
  ...我想宝推!可怎么办呀?...
- 复关于《字表》我也不得不说几句
  家园 技术问题而已
  首先，真要拿出来蒙你，也是很简单的
  然后，以Google为例，躏字少，囧字多，恐怕无法成为证据
  毕竟在正式书籍、文件、材料中，恐怕结论刚好相反
  最后，统计学本来也是可以用来骗人的
  - 复技术问题而已
    家园 你没有看懂我的意思
    1、我以“囧”举例，显然不是真的要求把这个字放到一级字库。这字进不进字表，与我何干？但制表者是否对此类现象加以关注和说明将点出很多问题。
    2、以你的意思，这个字表竟然可以无视口语和论坛、网页的需要，只要符合正式书籍、文件、材料就好了？如果是这样的话，我只能说这个观点出自腐儒认正朔的理论。很遗憾，从理论上来说，我国现在人民才是正朔。也许你并不是这个意思，但我相信做这个表的人一定有很强的这个意思，支持这个表的人亦如此。可怜毛倾举国之力数十载，却仍未革去这腐儒之气，让它死灰复燃。
    再说说统计学。
    统计学可以骗人，在学术界混的人谁都很清楚。咱博士论文附了20篇论文，对cooking data之技也算是略知一二。但是，这是一个道德底线。西方学术界那么多年，难道他们不知道这个问题？他们仍然采用这套程序，只能说明目前尚没有更好的办法。
    无论你如何cooking data，毕竟说明你仍然是依据客观规律在做事。大家都不是傻子，你搞出来的数据是否合理、哪里用了技巧一看便知。但是如果你连这最后的遮羞布都不要了，连cooked data都不给，这能说明什么问题呢？对真正有良知的人来说，数据和统计都是狗屎。但我到哪里找有良知的人？我有如何确认你是有良知的人？
    我已经说过，他们只要有3-4篇数据充分的论文覆盖字表修改的大部分内容，我就不说什么了。至于如何cook数据、最后字表修改成啥样，与我何干？我的专业和这个在第6-7杆子的时候才打得着。
    对王教授的定性研究我无评价的资格。依据其发表的论文著作和别人的评价，我还得承认，她在该领域的定性研究方面是数一数二的。但是，作为一个影响十多亿人的政策的依据，仅仅是定性研究是远远不够的。定性研究不可避免带有人的偏见。以定性研究为依据的政策，必然是人治。我们号称现在是法治社会。法治，不仅仅是法律那一张纸。现在已经是21世纪，很多事情都是在优化小数点后多少位。在这种情况下，不用精确的定量分析来指导法律和政策的制定，如何能够有好的结果？
    - 复你没有看懂我的意思
      家园 技术问题还是归技术问题
      首先，定量的数据对象如何选择？是选人民日报、光明日报，还是八卦新闻、街边小广告？比例各占多少？
      就说网络，也是如此
      是新浪、雅虎，还是大法之类的网站？或者是QQ的聊天记录？
      对象选择的不同，得出的结论大相径庭
      再回到“囧”字，是一时的泡沫，还是就此进入人们的日常生活？
      其次，就说上网，现在上网的人群是什么样的人？
      是读报读书的人多，覆盖范围广？还是上网的人多，覆盖的范围广？
      相信你在学术界混得很久了，特别是社科界，同样的材料尚且会得到完全不同的结论
      所以，你说的所谓定量分析，只不过是忽悠手段高级而已
      到那个时候，更没有普通人说话的机会了
      专家会说：“这是定量分析，是数据说话，你懂吗？”
      于是文明棍便挥了起来，提出疑问的那人只得讪讪退去，惹得周围的人一阵嘲笑

分页树展主题 · 全看首页上页下页末页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明