五千年(敝帚自珍)

主题：中国市场不足以支持高科技取得【超预期】回报，中国最缺的是市场 -- 亮子

共:💬30 🌺120 🌵8

老视野待整

全看分页树展 · 主题跟帖

复 chatGPT用的数据其实不是很多

说两句

第一, GPT不需要标注数据,因为就是个自生成语言模型，自带标注。

第二，这些个transformer模型内部就是在不停的算attention, 和序列长度平方成正比。你把45T的数据tokenize以后，每2048个token为一个序列算若干个attention。你扫一遍那还是相当费时费力的。

不过模型本身确实没有太复杂的，数据清洗过程大概是真正的trade secret.

全看分页树展 · 主题跟帖

相关回复上下关系7
- - 🙂您老是说中国数据资料不行。。。 16 贼不走空字1113 2023-02-22 03:40:02
    🙂就是公开数据啊，架不住数据量极其恐怖，哪有那么多人力互译 3 亮子字63 2023-02-22 03:55:47
    🙂chatGPT用的数据其实不是很多 12 向前向前字296 2023-02-22 23:55:56
    🙂说两句
    🙂是的，归根到底还是钱和人力亮子字0 2023-02-23 01:42:59
  - 🙂所以在市场之外必须有政府调控的手段 2 sammoy 字150 2023-02-22 02:44:55
    🙂政府调控可以当一段时间内的应急手段，但没法永远调控下去亮子字45 2023-02-22 03:52:42

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

Copyright © cchere 西西河

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明