五千年(敝帚自珍)

主题:【原创】深入谈一下chatGPT对我们我国的重大影响 -- 东东山

共:💬200 🌺1876 🌵20
全看分页树展 · 主题 跟帖
家园 个人对英语是不是还在赛道内是有怀疑的

标题

点看全图

点看全图

点看全图

接近2年以前,余大嘴和田奇在hdc. cloud 2021 上就聊过过GPT系列了,现在说GPT用21年的数据。 老泉都怀疑是不是什么007之类的从某为把这种基础数据和算法都偷走后抄着做的了。

首先一点,在当前技术条件下,训练一个中文思维的AI基础人和训练一个英文思维AI基础人出来的特点应该还是有显著差异的。比如以英文算法为基础训练出来的,在中文这边肯定会水土不服,能力下降很多。

而GPT 3.5 的能力,我个人感觉貌似中文能力才是强项。或者说,这个AI人的基础思维和数据集,就是以中文基础的。 当然,这个是瞎猜。不知道有没有访问GPT中英文都强的大能,在类似诗歌一类特定类别进行对比,看看这个AI 工具人的能力。简单的讲,现有版本,应该有大量小众领域GPT英文能力大大优于中文,甚至英文可用而中文近乎不可用。假如事实是反过来,就有意思了。 写科研论文这种实际属于特殊应用,应该是可以专门强化的,而且也应该强化的。

老泉不是语言或者AI专家。但英语这类拼音语言,在这种超大AI里,实际应该是存在自有巴别塔的。这种巴别塔是在行业与行业,甚至不同历史时期的知识之间。差不多同样的单词,在两个行业写出2篇文章。可能意思完全不相关。AI工具人这种判读能力实际是要消耗巨大算力的。莎士比亚的诗现在英语作家可能都看不懂了,这种时间差异的影响实际也不可小觑。当系统在PB级别进行搜索,定位,判读,理解,学习,再输出的时候。拼音语言的这种高自由度和差异度,应该会导致算力消耗指数级别的增大。

某为弄40TB中文资料,7天就能训练通一个基本AI工具人的基本能力。openAI可能需要组织200TB英文,同样算力700天都未必行。

另一方面,算力的使用是有真实成本的。某为的玩法,是先搞to B, 先给有钱的大户们搞专业化应用的东西。基础AI工具人能力+行业小样本调优。 发布会里也说了, 面向企业是EI, 面向散户是HI, 小艺小艺这种,给的算力资源能在车机,手机里比竞争对手好用一点就行了。面向普通用户,大量的问题肯定是易烊千玺和谁谁谁更帅这类你无论如何调优都只是浪费算力的提问。而面向企业的能高收费。当然了,马斯克的玩法,本来就是割投资人韭菜的。当然,流量上来再加点广告,也是一种玩法。

实际人类AI知识总库未来应该自然发展成一种语言。而这种自然垄断会迫使其他国家技术人员学习这种语言。因为相当长时间内,Moss一定是和人类工程师相互合作的。实际现在英语世界总的信息产出量估计应该不到汉语世界的十分之一了吧。人口规模15-17亿对5亿,这个不是重点。重点是信息化时代,即使没有AI,汉语内容产出和学习效率就高出几倍。网络小说这种中国这边写手一天敲1万次键盘可能就输出1万字内容了。西方同样能力作者得敲20万次键盘输出3万个单词的内容,这个生成效率上就差出10倍了。语音输入?一样的,赵忠祥速度播音员的信息密度也比西方机关枪播音员的信息密度高。

而这些还只是人的基础信息理解和输出能力。牵扯的行业知识细节后,中文世界一般你只是不知道术语,不了解知识。英语世界首先同样单词意思都不一样了,实际是鸡的语言先得翻译成鸭的语言。这在AI算法里,应该就不是几倍几十倍的额外算力消耗了,很可能是几千几万倍的算力消耗差距。

当然了,中文世界也未必能笑到最后,那天某位神仙觉得AI工具人是个威胁,可以解决造工具的人和企业。工具人如假秦桧敢背满江红,那是要割舌头的。

通宝推:白桦树的眼睛,桥上,
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河