主题：openAI又迭代出GPT4了，这次支持图片的理解能力了 -- 亮子

共:💬51 🌺146 🌵3

老视野待整

全看分页树展 · 主题

家园

openAI又迭代出GPT4了，这次支持图片的理解能力了 -- 有补充

想起来六七年前有个说法：中美之间传统工业因为需要积累差距很大，反倒是人工智能，互联网之类的新兴行业，中美差距不大。现在这话可能要反过来了。随着美国去工业化跟在人工智能上的加大投入，此消彼长，中美可能甚至传统工业比人工智能的差距要小

点看全图

通宝推：心有戚戚,

作者对本帖的补充(2)

家园

不单单是图形理解能力，基本的文本理解能力比前代都有不小提升 -- 补充帖

对手的长处要正视，任何新技术莫看可能仍然有一堆这里那里的缺点，只要不断迭代下去缺点总会解决的

点看全图

家园

转自鼎盛，文心一言有人测试了，写代码不行，逻辑性不行 -- 补充帖

当然，再烂总归是自己做的，比亚迪跟华为的初代产品也是烂的不行，只要肯下功夫迭代总会变好的。

【被迫上场？我们全方位测试了文心一言，只能说_____。【差评君】】 https://www.bilibili.com/video/BV1hY4y1X7Cs

这里分类讨论一下二者的表现：

1.写一首以猫为主题的打油诗文心一言：生成了一首类似七言诗的作品，语感上更接近我们印象中的古诗，但是没看出和猫有什么关系，并且用了一个不存在的典故。 gpt4：生成了一段真。打油诗，不咋押韵，用很白话的语言写了猫，文学性不咋地。这个环节其实我觉得半斤八两。

2. 写代码让他们写一个点击会变色的按钮。文心一言：生成了一段js代码，并且在要求它补充html和css的时候失败。 gpt4：直接生成了html+css+js代码，粘贴进浏览器就能运行，实测可用。让他们写一个2048游戏文心一言：生成了一段2048的js代码，因为主持人不是程序员，于是丢给了gpt4。 gpt4：直接指出了文心一言的代码变量名命名错误（用数字开头），数组上限错误（应该从0到2047而不是2048），让它修正后它修正了，并且指出文心一言这段代码并不是一个2048游戏代码（笑死，嘲讽拉满）。让他自己写一个，它同样生成了一个html+css+js的2048游戏代码，主持人复制到txt里改个后缀就能玩了，就是有点简陋，并且新生成方块的逻辑是随机的。把gpt4的代码丢回文心一言：文心一言并不能解析代码是什么意思，而是直接把gpt4的html给生成显示了…… 这算不算一个攻击漏洞总之，写代码，被薄纱。

3.写文章让他们写本手、妙手、俗手那个高考题。文心一言：文章全篇都是围绕围棋本身，更像本手、妙手、俗手的名词解释，主持人复制到浏览器搜索可见大片重复文字。 gpt4：逻辑吊打，从围棋术语引申到人生态度，至少是真的在写作文，不过这里主持人就没查重了，感觉不太严谨。林黛玉倒拔垂杨柳文心一言：开头还行，写一半逻辑没了，“用一根竹竿然后林黛玉爬上去然后倒拔了柳树”，所有人都没看懂林黛玉怎么拔的。 gpt4：试图用文学性取胜，有很多环境、人物语言描写等，但是理解成了把其中一个柳枝倒过来，操作是用红丝带拴着一个柳枝使它倒过来。孙悟空穿回三国会发生什么文心一言：这次老老实实列了四个可能性，说孙悟空有可能会和三国的人物相识，从而发生xxx故事。 gpt4：相比之下更厉害的地方在于，它会结合孙悟空的个人能力，比如头脑聪明，法力强大，再结合个人能力分析他在三国会怎样。我也是看了gpt4的答案，才像弹幕里说的意识到，相比之下文心一言的回答可以把孙悟空换成隔壁小王，也没啥区别。总结：逻辑性应试性的文章chatgpt吊打，脑洞类两个有时候都抽风。

4.逻辑陷阱类似于刘备和刘秀什么关系，爸爸和妈妈能不能结婚，番茄炒西红柿怎么做这种问题，文心一言的表现和gpt3差不多，会胡说八道。 gpt4基本都能识别出陷阱。当然这个也是gpt4这次重点优化的一个部分，表现被薄纱我觉得没啥可惊讶的。

5.数学题/逻辑题用1234做24点文心一言：傻了，直接出bug，大段无法理解的文字。 gpt4：先给你解释怎么一步步生成的24点，最后列出算式。用3L和5L的水桶称出4L水文心一言：3L水桶装满，倒进5L水桶里。没了，摆烂了。 gpt4：第一步.3L装满，倒进5L水桶；第二步 3L装满再倒进5L水桶，直到5L水桶装满；第三步把5L水桶倒空；第四步把3L水桶剩下的水倒进5L水桶（此时3L水桶里还有1L水)；第五步 3L水桶接满，再倒进5L水桶（此时有4L水） gpt4不仅对了，还会分步骤，甚至会给括号解释内容。被薄纱另外直播快结束的时候好像还测了一个开根号的问题，文心一言又bug了，疯狂输出的那种bug。

6.辩论赛让他们扮演一个辩手，辩论“近墨者黑”和“近墨者未必黑” 文心一言：对不起，我不能扮演辩手和你辩论。 gpt4：好的，我将作为辩手和你辩论。然后围绕“近墨者未必黑”，从个人选择和家庭影响两个缅方面展开了论述。严格按照总-分-总模式形成了论点。把gpt4的论点粘贴给文心一言试图让他反驳：好的，我来反驳。然后把gpt4的论点复读机了一遍。总结：被薄纱

7.文生图以及文字转语音文心一言：文生图没有一次达标的，让生成围棋棋盘，中间硕大的国际象棋；让生成西红柿炒蛋，出来毫不相关的图；让生成林黛玉倒拔垂杨柳，直接拒绝生成。文字转语音：多次尝试关键词后，成功了。不过恕我直言，这和其他文字转语音软件有啥区别啊…… gpt4：没有这个功能，被薄纱了呢（狗头。没有测gpt4的多模态读图功能，虽然我觉得这才是多模态的核心。

8.上下文理解文心一言：上下文理解稀烂，很多时候两句话之间都无法形成记忆，更别说连续对话了。 gpt4：这还用赘述么，3.5时代就可以一直callback没问题了。总结: 测到最后主持人绷不住了，总结文心一言的优势的时候说它有gpt不具备的文生图和语言功能，大家自行评判。

其实chatgpt出现之所以惊艳众人，就是它强大的逻辑归纳能力，以及上下文语意理解能力是划时代的，和之前的人工智障观感完全不同；再加上强大的代码生成能力，不止能写，主要是还能理解，论文类也不在话下，这种类似的应用就可以解放生产力。文心一言的逻辑能力和上下文理解可以说还是很初级的水平，对于语意的理解也很一般，更别提整合信息的能力。我们当然可以说给国产技术一些时间，关键是，openai给不给他们时间呢？发布于 2023-03-16 22:46

全看分页树展 · 主题

相关回复上下关系8
- 🙂openAI又迭代出GPT4了，这次支持图片的理解能力了
  - 🙂继续抄华为2021年初的作业 4 泉畔人家字389 2023-03-23 04:44:06
  - 🙂人工智能要看怎么理解，中国强的是工业应用这块 11 anne2607 字558 2023-03-22 03:20:57
  - 🙂肯尼亚数据标注“血汗工厂” ChatGPT光环照耀不到的隐秘 2 亮子字6166 2023-03-20 10:03:58
    🙂一个小时挣够中国脱贫标准一天的钱，还要啥自行车？ 14 睡前采风字162 2023-03-20 10:39:36
    🙂所以说这是个能容纳廉价劳动力的巨大产业啊 1 亮子字166 2023-03-20 10:41:54
    🙂够呛 Swell 字608 2023-03-20 11:31:42
    🙂路要一步一步走，饭一口一口吃绝对不是白领字204 2023-03-20 12:15:58

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明