主题:中国市场不足以支持高科技取得【超预期】回报,中国最缺的是市场 -- 亮子
共:💬30 🌺120 🌵8
第一, GPT不需要标注数据,因为就是个自生成语言模型,自带标注。
第二,这些个transformer模型内部就是在不停的算attention, 和序列长度平方成正比。你把45T的数据tokenize以后,每2048个token为一个序列算若干个attention。你扫一遍那还是相当费时费力的。
不过模型本身确实没有太复杂的,数据清洗过程大概是真正的trade secret.
- 相关回复 上下关系7
🙂您老是说中国数据资料不行。。。 16 贼不走空 字1113 2023-02-22 03:40:02
🙂就是公开数据啊,架不住数据量极其恐怖,哪有那么多人力互译 3 亮子 字63 2023-02-22 03:55:47
🙂chatGPT用的数据其实不是很多 12 向前向前 字296 2023-02-22 23:55:56
🙂说两句
🙂是的,归根到底还是钱和人力 亮子 字0 2023-02-23 01:42:59
🙂所以在市场之外必须有政府调控的手段 2 sammoy 字150 2023-02-22 02:44:55
🙂政府调控可以当一段时间内的应急手段,但没法永远调控下去 亮子 字45 2023-02-22 03:52:42