五千年(敝帚自珍)

主题:【原创】深入谈一下chatGPT对我们我国的重大影响 -- 东东山

共:💬200 🌺1876 🌵20
分页树展主题 · 全看首页 上页
/ 14
下页 末页
            • 家园 所以一个课题是

              AI能不能本质超越训练它的人。

              能的话,它对得起 I 这个字母。

              • 家园 真有这天了,那就是人类末日了
              • 家园 它的优点是能减少重复劳动

                这也是ChatGPT目前回答中“废话比较多”的原因。

                为什么中科院研究人工智能最深入的所之一是自动化所?因为AI的最重要应用之一仍然是生产自动化(楼上几位河友提及的论文创作,也算一种生产)。

                在计算机行业,从诞生那一天起,就在干这个活。现在仍在天天干。

                ChatGPT是基于语言训练出的学习模型。

                不妨自问一个问题:专业学外语的,有多少人能在专业生产甚至于哲学层面上真正创新?

                人既如此,人创造的工具亦然。

                通宝推:老惰,GWA,没选择,唐家山,宝特勤,
      • 家园 关于4

        我怕chatbot被行拘

      • 家园 个人对英语是不是还在赛道内是有怀疑的

        标题

        点看全图

        点看全图

        点看全图

        接近2年以前,余大嘴和田奇在hdc. cloud 2021 上就聊过过GPT系列了,现在说GPT用21年的数据。 老泉都怀疑是不是什么007之类的从某为把这种基础数据和算法都偷走后抄着做的了。

        首先一点,在当前技术条件下,训练一个中文思维的AI基础人和训练一个英文思维AI基础人出来的特点应该还是有显著差异的。比如以英文算法为基础训练出来的,在中文这边肯定会水土不服,能力下降很多。

        而GPT 3.5 的能力,我个人感觉貌似中文能力才是强项。或者说,这个AI人的基础思维和数据集,就是以中文基础的。 当然,这个是瞎猜。不知道有没有访问GPT中英文都强的大能,在类似诗歌一类特定类别进行对比,看看这个AI 工具人的能力。简单的讲,现有版本,应该有大量小众领域GPT英文能力大大优于中文,甚至英文可用而中文近乎不可用。假如事实是反过来,就有意思了。 写科研论文这种实际属于特殊应用,应该是可以专门强化的,而且也应该强化的。

        老泉不是语言或者AI专家。但英语这类拼音语言,在这种超大AI里,实际应该是存在自有巴别塔的。这种巴别塔是在行业与行业,甚至不同历史时期的知识之间。差不多同样的单词,在两个行业写出2篇文章。可能意思完全不相关。AI工具人这种判读能力实际是要消耗巨大算力的。莎士比亚的诗现在英语作家可能都看不懂了,这种时间差异的影响实际也不可小觑。当系统在PB级别进行搜索,定位,判读,理解,学习,再输出的时候。拼音语言的这种高自由度和差异度,应该会导致算力消耗指数级别的增大。

        某为弄40TB中文资料,7天就能训练通一个基本AI工具人的基本能力。openAI可能需要组织200TB英文,同样算力700天都未必行。

        另一方面,算力的使用是有真实成本的。某为的玩法,是先搞to B, 先给有钱的大户们搞专业化应用的东西。基础AI工具人能力+行业小样本调优。 发布会里也说了, 面向企业是EI, 面向散户是HI, 小艺小艺这种,给的算力资源能在车机,手机里比竞争对手好用一点就行了。面向普通用户,大量的问题肯定是易烊千玺和谁谁谁更帅这类你无论如何调优都只是浪费算力的提问。而面向企业的能高收费。当然了,马斯克的玩法,本来就是割投资人韭菜的。当然,流量上来再加点广告,也是一种玩法。

        实际人类AI知识总库未来应该自然发展成一种语言。而这种自然垄断会迫使其他国家技术人员学习这种语言。因为相当长时间内,Moss一定是和人类工程师相互合作的。实际现在英语世界总的信息产出量估计应该不到汉语世界的十分之一了吧。人口规模15-17亿对5亿,这个不是重点。重点是信息化时代,即使没有AI,汉语内容产出和学习效率就高出几倍。网络小说这种中国这边写手一天敲1万次键盘可能就输出1万字内容了。西方同样能力作者得敲20万次键盘输出3万个单词的内容,这个生成效率上就差出10倍了。语音输入?一样的,赵忠祥速度播音员的信息密度也比西方机关枪播音员的信息密度高。

        而这些还只是人的基础信息理解和输出能力。牵扯的行业知识细节后,中文世界一般你只是不知道术语,不了解知识。英语世界首先同样单词意思都不一样了,实际是鸡的语言先得翻译成鸭的语言。这在AI算法里,应该就不是几倍几十倍的额外算力消耗了,很可能是几千几万倍的算力消耗差距。

        当然了,中文世界也未必能笑到最后,那天某位神仙觉得AI工具人是个威胁,可以解决造工具的人和企业。工具人如假秦桧敢背满江红,那是要割舌头的。

        通宝推:白桦树的眼睛,桥上,
        • 家园 【讨论】

          不是很赞同,中文网页的重复和抄袭太多了,所以很难搜索到有用的信息。英文网页都要求查重的,即使是描述一个事情,写作逻辑和语句都是重新架构过的,这样会减少重复信息,增加一些有效信息。所以积累下来,中文世界的有效信息要远远低于英文的。

          • 家园 呵呵,大明大清秀才鄙视西洋印本估计也是这么认为的

            实际真实世界都是重复和抄袭为主,真正有用的信息都是稀缺的。有些特殊行业比如程序bug一类实际都是网站的管理水平问题。但在AI世界,看的实际是人少量干预后AI系统的自我理解和甄别能力。

            谷歌的演示翻车导致谷歌估计跌了上千亿刀,因为谷歌给出的关于韦伯太空望远镜的内容是错误事实。显然,谷歌的核心库和算法很可能是英文基础的。但英文基础思维在进入这种专业领域后的理解和甄别难度是指数上升的。

            点看全图

            去重,清洗,删减无效数据,实际这都是AI模型本身的能力。尽管现在人在回路还是需要的,但一般都是人很少的干预就能让AI能力巨大提升。

            明清时代八股文确实格式严谨对账,古登堡印刷术成熟后,最大的印刷量也是各类吸血鬼故事或者小报八卦。但量变是能引起质变的,而且在中文信息世界AI化里,理解和甄别的算力优势才是真正决定性的。

      • 家园 中美差距最大的是数据量,全球互联网占得优势太大了

        谷歌脸书之类的全球公司,就有全球的数据供他们训练,中国智能用本土的数据训练,体量差距太大了

      • 家园 在这之前微软曾有自动代码功能的推出

        其数据来源应该就是在它收购的GitHub里面大量的成熟的开源软件代码。

        除代码以外,知识类的内容,我想它的搜索引擎也应该搜集到足够多的内容,尤其是wikipedia 这样的,可以在很大程度上保证信息的准确性。

        有了这些原始数据后,要做的应该就是从这些数据中找到关联,做内容分析整合。这个能力应该是比较牛。我想,如果有足够信息,它应该完全可以摸透任何一个人的性格和行为模式,比算命先生还要铁口。也很可能在某种意义上实现个人的永生,精神、思维上的永生。至少在旁人的角度来看跟活着没区别。

        从不好的角度,也挺可怕,希望不会把人耍的团团转。

        • 家园 谢谢铁手老大的回复

          据说stack overflow要禁止用ChatGPT回答问题。我觉得这也说明ChatGPT的训练很大程度上得益于stack overflow这样高水平QA论坛。ChatGPT的训练需要大量数据来喂养,而且数据质量越高得到的模型约好。目前我们中文网络不仅缺少可以媲美维基百科这样体量的知识库资源,而且缺少高水平的技术论坛,特别是能够对标stack overflow这样的QA论坛。目前知乎和CSDN都难以做到stack overflow的专和精。stack overflow的评议、投票机制能够过滤掉大部分灌水内容,它的tag、得分又可以帮助筛高质量回答。所有这些信息直接可以用于模型训练和评价,节省大量的人工评价。顺便说一下,我觉得stack overflow的评议机制非常棒,的确是有利于筛选出真正志同道合的人,这些人是保持论坛长久活跃的根本。

          另一个是在科技论文资源方面差距更大。现在还没有开放版权中文论文库,知网也难堪大任。中国科学家们勤奋又高产,国家科技投入那么大,但最好的论文都发到英文期刊,并以此为荣。正如东东山河友指出,这主要是科技部的失职,我认为还要加上教育部,目前的评价体系逼迫大家把最好的论文写在国外大地上,把习大大的嘱托当做了耳旁风。

          通宝推:方平,破鱼,履虎,尖石,陈王奋起,sywyang,铁手,偶卖糕的,唐家山,秦波仁者,
          • 家园 不知道发了英文论文后,能不能再发中文论文?

            确实如你所说,中文资源和英文资源比较起来,欠缺不少。象论文之类的,也许可以政策鼓励同时发中文论文(印象中有版权问题但后来有不少网刊似乎无版权问题),内容也许会多些。

            我是很佩服wikipedia, GitHub, stake overflow 这类东西的,很好的提纯了不少有价值的内容。

            Stake overflow 的方式确实不错。西西河的回复和补充多少有些借鉴,但也暂时没达到我想要的效果。习惯问题,不过,不久也许会有类似的实现,来做得回复讨论的内容充实,其他内容则归到补充。

分页树展主题 · 全看首页 上页
/ 14
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河