主题:孩子回国比较一下才明白大陆学生比海外华人的小孩平均差了十万八 -- forger
正如陈王所说”掌握1000个字可以应付日常交流,认识6000个汉字的已经击败99%的人。小学三年级阅读报纸没有任何障碍“,同样的表达内容中文版的联合国文件永远是最薄的。举一个简单的例子:同样是没有任何军事常识的人,中国人看到护卫舰、驱逐舰、巡洋舰就会知道大概都是军舰,而说英语的人看到Frigate、Destroyer、Cruiser未必知道它们是什么,之间有什么共性。
查一下牛津词典可知:
《牛津英语词典》(Oxford English Dictionary;OED)习称《牛津大词典》[2],是由牛津大学出版社出版的20卷词典,截至2005年11月30日,该词典收录了301,100主词汇,字母数目达3亿5千万个。词典亦收录了157,000个以粗体印刷的组合和变形,以及169,000个以粗斜体印刷的短语和组合,令词典收录的词汇达到616,500个。另外,词典共列出137,000条读音、249,300个词源、577,000个互相参照和2,412,400句例子
包括英语在内的字母语言,由于造词方便,所以制造新词汇成为一种随意而为的时髦行为。但是都是随着社会发展的复杂性,英语词汇已经庞大到匪夷所思的地步,比如牛津词典收录的英语主词汇已经有30多万个,一个人想掌握几十万词汇是完全不可能的,因此形成的语言壁垒达到了非专业人士已经完全不能理解该专业的特有词汇的地步。
在AI训练的难度上,中文导致的歧义也远远领先于英语,比如Mouse,如果不结合上下文,你很难知道说的是“老鼠”,还是”鼠标“。随着大模型规模增大,英文相比于中文的难度就会指数级增大,需要的算力还有电力相比中文版也都是巨量,成本也会更大。今后的智能社会基础设施建设中文的优势只会越来越明显。
- 相关回复 上下关系8
压缩 3 层
🙂ai用你的鬼子语去 10 赵美成 字33 2024-08-11 03:08:15
🙂说到逆向种族主义,这就来了 86 陈王奋起 字1989 2024-08-11 01:13:00
🙂汉语的模块形式在历史上阻碍了代数学,几何学的发展 1 思想的行者 字3548 2024-08-17 00:52:32
🙂在目前AI训练中更加体现了汉语的优越
🙂是的,汉语的优越性是体现在生产力上 6 侎众 字615 2024-08-12 23:29:45
🙂护卫(用途)舰(类型)是多维结构。10*10=100*1 2 tq10 字0 2024-08-12 07:08:18
🙂这个是比较核心的区别 36 pattern 字1644 2024-08-12 05:36:31
🙂【讨论】看到过一个有意思的观点 14 天狼星 字772 2024-08-12 23:19:36