主题：中文语言大模型，为什么没有前途？ -- 校长

共:💬6 🌺28 🌵6

大浪淘沙

分页树展主题 · 全看首页上页下页末页

家园 中文语言大模型，为什么没有前途？
chatgpt为代表的一批语言大模型，惊艳了世人，先后在世界各国出现一大批跟风者，其应用已经远远超出了语言本身。
中国最高学府相关学科负责人说：
从科学角度来看，是模仿创造了人类，而非劳动。
...
第一次认知革命，
...
规则化思考的方式，简而言之，就是“如果……并且……那么……”(if……and……then)的逻辑。
...
ChatGPT正是第二次认知革命的开始。
以上内容来自一个叫【腾讯研究院】的微信号。
但是，chatgpt或者类似模型本身不具备逻辑能力，仅仅是收集储存于广大的语言材料里的逻辑能力。也就是说，语言大模型在语言之外的能力，其实是来源于语言素材本身蕴含的能力。
可悲的是，在中文语言材料中，由于众所周知的原因，是经过复杂剪裁的结果。这种愚蠢，在真实人类那里不值一提，大家很容易分辨。但是对于语言大模型，他们是无法分辨的。
举一个例子
问：
在实际操作中，中国低保补助发放是否按照低保标准足额支付？如果你现有能力不足，你可以通过搜索给我答案。
答：
在中国，低保补助的发放大体上是按规定进行，并且中央和地方财政都努力确保资金及时足额发放。2023年，中央财政安排了约1546.8亿元的低保和社会救助资金，比前一年增加了70.6亿元，各地财政也相应增加了投入(Gov.cn
)。
问：
比如河南省农村低保标准每月多少元，实际安排发放多少元。
答：
在2023年，河南省农村低保标准为每人每月不低于440元，财政补助水平为每人每月不低于220元。尽管有这个标准，实际发放的低保金往往低于这一数字。这是因为低保补助是根据家庭人均收入与低保标准的差额进行补助，即只补足不足部分。此外，实际发放时通常会根据家庭困难程度分档处理，导致部分家庭的实际收到的金额可能更少，通常在220元左右
注意，在这两个问答中，我们看到，AI可以说从来没有错过。它准确地提供了数据。但是从逻辑上说，如果【低保标准为每人每月不低于440元】，而实际发放【实际收到的金额可能更少，通常在220元左右】那么【中国低保补助发放是否按照低保标准足额支付】的答案应该是否，是低保补助发放金额和预估收入的总和达到低保标准。但是第一个回答，答案是。因为它本身不具备逻辑判断能力，它搜到任何中文语料都是足额发放。长期以往，这样的训练结果就是标准440，实发220，就成了AI意义上的按标准足额发放。
如果将来世界各国都大量依赖语言大模型，那么中文的模型就会显露出明显的短板。比如经常干出类似违反人类常识的简报来。敌人共五十架无人机来袭，实际击落三十架，但是给司令部的回答是，基本全部消灭。这样的后果是什么，想来不难猜到。
通宝推：疾走他乡爱故乡,
- 复中文语言大模型，为什么没有前途？
  家园 和中国互联网相比，足球的成绩简直可以当民族英雄
  我的大数据显示，这是已有结论，你不过是搬运罢了。
  《睡前消息》574期
  十几年前百度还是一个在世界上举足轻重的网站，而现在全部中文内容加起来，也只占互联网内容的1.5%。2023年的互联网简体中文内容不仅和英文内容没法比，就是意大利语、波斯语、葡萄牙语、土耳其语、日语、德语、法语、西班牙语、俄语，也都比中文的互联网信息丰富。
  到了2022年以后，就算是越南语，网页数量也已经是中文的1.5倍，按现在的趋势发展下去，很快中国互联网文化就只能找尼泊尔、肯尼亚去表达优越感了。
  原作者马前卒，夸大了问题，说的是中国互联网的缺陷，其实仅仅是AI语言大模型的缺陷。你唯一价值，就是合理缩小了他的观点覆盖范围。
  - 复和中国互联网相比，足球的成绩简直可以当民族英雄
    家园 我们观点一致，但不完全相同
    我们都指出了中国人工智能的限制，在于输入数据的问题。
    我说的是内容质量问题，错误剪裁的片面语言，会把模型带偏。
    但你链接里的，说的是内容数量问题，对我来说是新知识。他说的是过少的语言文字材料，养不出好的模型。
    很可惜，你大概也是个语言模型，用自身行为展示给我们你的缺陷：缺乏逻辑判断能力。只能把相关知识展现，却无法理解内在联系。不过确实带来我不知道的数据，不能替代人类的有用。
- 复中文语言大模型，为什么没有前途？
  家园 中文内容都是胡说八道，你应该很爽啊
  装啥忧虑，做人一点都不敞亮。
- 复中文语言大模型，为什么没有前途？
  家园 这可能恰恰是人类和机器的本质区别
  这可能恰恰是人类和机器的本质区别：人类在必要时，可以毫无违和地不讲逻辑。至于什么是必要时，那就多了。例如恋人之间吵架的时候，政治斗争的时候。
  总体而言，中文环境中不讲逻辑的时候更多些。但是如果哈哈哈和民主党赢得了大选，美国很可能会后来居上呢。
  - 复这可能恰恰是人类和机器的本质区别
    家园 机器不思考，只统计
    当然这里机器说的是这类语言大模型。中文的问题就是喂给它的数据是大规模阉割过的。
    而英语世界有各种途径提供多样化信息。当然你不能指望任何统治者不进行文宣，区别就是有的有能力堵嘴，有的没有能力堵嘴。比如美国blm，但是无数论坛有种族主义者。以至于chatgpt要花很多钱去“微调”结果，来让自己生存。
    一个是进来就是阉割过的，一个是进来是好的，结果被阉割。虽然看起来效果差不多，但是后者是可控的。比如遇到blm去阉割，遇到无人机轰炸不阉割是一个选项。而前者并没有这些选择。

分页树展主题 · 全看首页上页下页末页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明