五千年(敝帚自珍)

主题:中文语言大模型,为什么没有前途? -- 校长

共:💬6 🌺28 🌵6
分页树展主题 · 全看首页 上页
/ 1
下页 末页
  • 家园 中文语言大模型,为什么没有前途?

    chatgpt为代表的一批语言大模型,惊艳了世人,先后在世界各国出现一大批跟风者,其应用已经远远超出了语言本身。

    中国最高学府相关学科负责人说:

    从科学角度来看,是模仿创造了人类,而非劳动。

    ...

    第一次认知革命,

    ...

    规则化思考的方式,简而言之,就是“如果……并且……那么……”(if……and……then)的逻辑。

    ...

    ChatGPT正是第二次认知革命的开始。

    以上内容来自一个叫【腾讯研究院】的微信号。

    但是,chatgpt或者类似模型本身不具备逻辑能力,仅仅是收集储存于广大的语言材料里的逻辑能力。也就是说,语言大模型在语言之外的能力,其实是来源于语言素材本身蕴含的能力。

    可悲的是,在中文语言材料中,由于众所周知的原因,是经过复杂剪裁的结果。这种愚蠢,在真实人类那里不值一提,大家很容易分辨。但是对于语言大模型,他们是无法分辨的。

    举一个例子

    问:

    在实际操作中,中国低保补助发放是否按照低保标准足额支付?如果你现有能力不足,你可以通过搜索给我答案。

    答:

    在中国,低保补助的发放大体上是按规定进行,并且中央和地方财政都努力确保资金及时足额发放。2023年,中央财政安排了约1546.8亿元的低保和社会救助资金,比前一年增加了70.6亿元,各地财政也相应增加了投入​(Gov.cn

    )。

    问:

    比如河南省农村低保标准每月多少元,实际安排发放多少元。

    答:

    在2023年,河南省农村低保标准为每人每月不低于440元,财政补助水平为每人每月不低于220元。尽管有这个标准,实际发放的低保金往往低于这一数字。这是因为低保补助是根据家庭人均收入与低保标准的差额进行补助,即只补足不足部分。此外,实际发放时通常会根据家庭困难程度分档处理,导致部分家庭的实际收到的金额可能更少,通常在220元左右

    注意,在这两个问答中,我们看到,AI可以说从来没有错过。它准确地提供了数据。但是从逻辑上说,如果【低保标准为每人每月不低于440元】,而实际发放【实际收到的金额可能更少,通常在220元左右】那么【中国低保补助发放是否按照低保标准足额支付】的答案应该是,是低保补助发放金额和预估收入的总和达到低保标准。但是第一个回答,答案。因为它本身不具备逻辑判断能力,它搜到任何中文语料都是足额发放。长期以往,这样的训练结果就是标准440,实发220,就成了AI意义上的按标准足额发放。

    如果将来世界各国都大量依赖语言大模型,那么中文的模型就会显露出明显的短板。比如经常干出类似违反人类常识的简报来。敌人共五十架无人机来袭,实际击落三十架,但是给司令部的回答是,基本全部消灭。这样的后果是什么,想来不难猜到。

    通宝推:疾走他乡爱故乡,
    • 家园 和中国互联网相比,足球的成绩简直可以当民族英雄

      我的大数据显示,这是已有结论,你不过是搬运罢了。

      《睡前消息》574期

      十几年前百度还是一个在世界上举足轻重的网站,而现在全部中文内容加起来,也只占互联网内容的1.5%。2023年的互联网简体中文内容不仅和英文内容没法比,就是意大利语、波斯语、葡萄牙语、土耳其语、日语、德语、法语、西班牙语、俄语,也都比中文的互联网信息丰富。

      到了2022年以后,就算是越南语,网页数量也已经是中文的1.5倍,按现在的趋势发展下去,很快中国互联网文化就只能找尼泊尔、肯尼亚去表达优越感了。

      原作者马前卒,夸大了问题,说的是中国互联网的缺陷,其实仅仅是AI语言大模型的缺陷。你唯一价值,就是合理缩小了他的观点覆盖范围。

      • 家园 我们观点一致,但不完全相同

        我们都指出了中国人工智能的限制,在于输入数据的问题。

        我说的是内容质量问题,错误剪裁的片面语言,会把模型带偏。

        但你链接里的,说的是内容数量问题,对我来说是新知识。他说的是过少的语言文字材料,养不出好的模型。

        很可惜,你大概也是个语言模型,用自身行为展示给我们你的缺陷:缺乏逻辑判断能力。只能把相关知识展现,却无法理解内在联系。不过确实带来我不知道的数据,不能替代人类的有用。

    • 家园 中文内容都是胡说八道,你应该很爽啊

      装啥忧虑,做人一点都不敞亮。

    • 家园 这可能恰恰是人类和机器的本质区别

      这可能恰恰是人类和机器的本质区别:人类在必要时,可以毫无违和地不讲逻辑。至于什么是必要时,那就多了。例如恋人之间吵架的时候,政治斗争的时候。

      总体而言,中文环境中不讲逻辑的时候更多些。但是如果哈哈哈和民主党赢得了大选,美国很可能会后来居上呢。

      • 家园 机器不思考,只统计

        当然这里机器说的是这类语言大模型。中文的问题就是喂给它的数据是大规模阉割过的。

        而英语世界有各种途径提供多样化信息。当然你不能指望任何统治者不进行文宣,区别就是有的有能力堵嘴,有的没有能力堵嘴。比如美国blm,但是无数论坛有种族主义者。以至于chatgpt要花很多钱去“微调”结果,来让自己生存。

        一个是进来就是阉割过的,一个是进来是好的,结果被阉割。虽然看起来效果差不多,但是后者是可控的。比如遇到blm去阉割,遇到无人机轰炸不阉割是一个选项。而前者并没有这些选择。

分页树展主题 · 全看首页 上页
/ 1
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河