近期网站停站换新具体说明
按以上说明时间，延期一周至网站时间26-27左右。具体实施前两天会在此提前通知具体实施时间

主题：旧金山 -- 胡里糊涂

共:💬2741 🌺26343 🌵509

大浪淘沙

全看分页树展 · 主题跟帖

复嗯这应该是正式回帖的最后一贴了

家园

一篇论文，旁佐证葡萄说的“人是数字社会第一因”

今年5月，arxiv上有篇论文《THE CURSE OF RECURSION : TRAINING ON GENERATED DATA MAKES MODELS FORGET》。（2305.17493）

文章的主要观点是：对于训练大型语言模型(LLM)而言，真正的人工生成内容必不可少。人类与LLM互动的数据将越来越有价值；LLM生成的内容会污染训练数据集。

GPT-4这样的大型语言模型(LLM)是在人类创造的文本上进行训练。由于LLM已经达到生成文本的水平，那么，未来LLM使用的训练数据很可能包含它们前辈模型生成的文本。

论文研究了用AIGC生成的文本训练下一代LLM时，会发生什么。例如，由GPT的一个版本，形成下一代模型的大部分训练数据集。随着迭代的增加，会导致GPT-n代模型的崩溃。最初是尾部消失，随着时间的推移，开始丢失关于数据真实分布的信息，经过几代的学习，行为开始收敛到一个方差非常小的点估计。这个过程是不可避免的。

说人话就是， LLM喜欢陈词滥调。比如，写一个青春偶像剧。男、女主可以在教室、图书馆、星巴克、校外的山坡上等等不同的地方认识。十个人写，估计会有七、八种可能。LLM进场了，它发现之前的文本中男、女主在星巴克认识的比较多，于是它认为男、女主认识的地点概率最大的是星巴克。所以，它，以及后来用由它生成的文本进行训练的下一代“它”，都会将男、女主认识的地点安排在星巴克。

这就是所谓的，模型收敛到一个方差非常小的点。

所以，论文认为，为了避免模型崩溃，访问真正的人工生成内容是必不可少的。模型训练需要使用真实人类生成的数据（文本）。LLM生成的内容将污染训练数据集。而人类与LLM互动的数据将越来越有价值。（当然，）

所以，这篇论文以技术的角度旁证了葡萄说的“人是数字社会第一因”。

考虑到，今后五年，人类生成文本的效率再高，也无法超过之前上千年积累的文本数量，所以我判断，GPT4出道即巅峰。在AIGC时代，对原创内容的需求不会减少，变化的只是生产的效率。学习LLM，如同当年学习word一样，它只是我们工具箱中另一件更有用的武器一样。

余华说，不管怎样，反正GPT4是淘汰不了他。

通宝推：桥上,

全看分页树展 · 主题跟帖

相关回复上下关系8
压缩 20 层
- 🙂研究人工智能的目的就是让它比人强 11 土木辛科字1757 2023-12-03 21:45:15
  - 🙂最近openai内部造反，据说原因就在于创业元老对某项目 6 onlookor 字769 2023-12-04 00:59:45
    🙂数学那个我记得北大有个姓吴的数学教授 3 桥上字165 2023-12-05 00:54:11
    🙂说到吴文俊院士后来搞的机器证明 9 绞尽脑汁字1151 2023-12-05 03:40:05
    🙂忙总的理解可能片面了 4 潜望镜字652 2023-12-06 02:33:38
    🙂如果在ChatGPT之前 5 唐家山字503 2023-12-06 03:30:02
    🙂逻辑已死——哥德尔 15 tq10 字469 2023-12-07 02:58:04
    🙂昨天刚好看到这篇文章 1 懒厨字175 2023-12-06 21:17:02

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明