五千年(敝帚自珍)

主题投票很多人似乎都觉得国内经济不行,到底为啥不行呢? -- 胡一刀

共:💬2487 🌺14528 🌵63
  • 投票信息

    单选,参与 249 / 0

    好上加好
    7/0
    稳中向好
    84/0
    不死不活
    64/0
    越来越差
    62/0
    自己晕菜了
    32/0
全看分页树展 · 主题 跟帖
家园 一些语言模型往事

早期的语言模型都是依赖于RNN/LSTM以及其各类变种的结构,但这类对并行不友好的结构存在一个吞吐量的问题,NVIDIA早年的产品也会为这类架构进行一些策略性的优化,但更多的是CNN的优化,因为计算机视觉在那个时代率先落地,需求巨大。

后来transformer诞生就是为了解决之前结构的并行化的缺陷,但在最开始并没有受到广泛的认可,因为其在任务效果上并没有展现出巨大的提升。transformer真正受到关注是在BERT(一个类似于专门做完形填空的语言模型,但不能对话只能填词)出现后,google通过在transformer上用当时的海量计算资源进行预训练,搞出来3亿参数的模型,超越了很多之前google内部多年的技术积累。也正是在这样子的情况下,google很快宣布搜索系统全面用BERT进行优化,所以我们才会看到google很快就搞出来TPU替代作为内部计算架构的主流解决方案。这一系列的决策都是有据可循和有利可图的。

BERT的成功启发了openai,openai也采用了google的思路,堆算力,在transformer上训练了一个标准语言模型,从而诞生了GPT2,四个尺寸(1亿,3亿,8亿和13亿参数),并且在当时openai宣称他们的模型太危险了,能生成人类不可辨识的文本,拒绝开源模型,一度在社区引发轩然大波,closeai的名头大约是从那个时候开始的。后来他们在社区的压力下或者是内部的某些不广为人知的原因(如果有人知道欢迎指正),彻底开源了GPT2。但根据那个阶段openai的很多公开的声明和行事风格,我倾向于认为openai对于下一步的发展也没有一个明确的方向,所以后来的路径大概是更大的模型,更多的数据训练了GPT3(27亿,67亿,130亿,1750亿)。再然后就是对GPT3 (27亿和67亿)进行人类偏好的问答训练,诞生了instructGPT。openai的所有的公开可追溯的工作到此为止,但一切都相对有迹可循。但即使到这个时候,openai也没有选择自研芯片,因为没有明确的业务模式商业逻辑,相反,而是转头和微软签订了巨额的计算服务资源协议。这一点和google选择切换到TPU是有业务需求和利润保证。

但LPU这代的技术,本质上是在赌GPT的架构发展的应用能够形成一个正循环来覆盖其研发和建设数据中心的成本。如果某个全新的架构或者方法太快的出现,并且展现出领先transformer的优势,那么这类LPU芯片唯一的生存机会就是上一代transformer孵化出来的应用场景能覆盖其研发和serving的成本,否则一切从头再来。

写的匆忙,欢迎讨论和指正。

通宝推:青青的蓝,西电鲁丁,心有戚戚,唐家山,达雅,

本帖一共被 1 帖 引用 (帖内工具实现)
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河