五千年(敝帚自珍)

主题:【原创】深入谈一下chatGPT对我们我国的重大影响 -- 东东山

共:💬200 🌺1876 🌵20
分页树展主题 · 全看首页 上页
/ 14
下页 末页
      • 家园 专业问题准确率挺差的

        问它连续函数是否可导,结果答案是肯定的。

        谷歌类似的东西翻车也是在第一个系外行星照片是谁拍的这种问题,看起来半斤八两,只不过谷歌慢了一步,就成群嘲对象了。

        估计这玩意还是靠谁的声音大听谁的,当然这可以靠增加教科书信息权重的方法解决,但那样它也就是高级点的图书馆。

        不过这就是个照妖镜,啥行业的论文靠创新,啥行业靠扯蛋,一下子就看出来了。。。

        • 家园 可以试试问的更详细一点

          比如:有没有处处连续,却处处不可导的函数? 看能不能回答正确。如果可以,并且给出例子,应该是个顺手的工具。

        • 家园 只有有很多年搜索经验的人才能理解

          要找到想要的答案,就需要用很专业的关键字去搜,而很多关键字根本不是外行小白所能知道的。

    • 家园 嘿嘿

      理论没有突破之前。ai的应用并不多,但却是能实实在在的解决一些智慧及工作上的重复。公式化的小说、公式化的程序、公式化...当然,在舆论场上的应用更是强大。

    • 家园 我想到的和用到的

      说说正在用的吧:

      1.其实如今几乎所有的科研人员都是某种程度的软件使用者。不用专业软件是不可想象的。随着这些软件越来越复杂,即使是专业的也没法做到100%全部掌握。过去是:问别人,问客服,查手册,甚至上一些软件公司组织的学习班。如果换一个领域或者换一个工作,还要重新学一些类似,但是不同的软件。ChatGPT基本上相当于一个私人定制的帮手,随叫随到。特别是针对一些有点冷门的软件。其实它只要能做到理解我的问题并在手册里找到相关答案就已经实现90%的功能了(这比单纯搜索强太多了)。

      2. 编程序转码。搞计算的都懂。很多时候需要对万年前的古典程序动刀。Fortran77写的,能不能转成python。这个程序能不能改成面向对象。这种东西其实完全是代码进,代码出。但是很多时候还要耽误你大量的时间。我没有试过,但是我觉得这个东西它未来能做。

      • 家园 正好把我在别处的回复抄过来

        很多时候需要对万年前的古典程序动刀。Fortran77写的,能不能转成python。

        ChatGPT的泛化能力还不行,应该做不了这种“无中生有”的事。如果能做到,ChatGPT就是强人工智能了。

    • 家园 也聊聊ChatGPT

      我的小组已经用了一段时间ChatGPT,也正好借宝地谈一些初步的感想。

      1. 我在高校这些年一直在做AI相关的东西。上周学生返校后我迫不及待地和学生聊起ChatGPT,才知道他们早就已经各种花式地使用ChatGPT了。我是理解他们的,无论是研究生还是老师,都需要输出论文,从这个角度来讲ChatGPT是生产力工具无疑。原来写论文的过程是先有一个想法,然后查文献、写综述、写代码,跑实验出结果,后面大部分时间需要用来组织语言形成论文,但是大部分学生最头疼的正好就是写论文这块儿,特别是写英文论文,需要很长时间的训练,需要掌握一定的写作技巧和套路,才可以过关成为所谓的成手。而后面的这部分正好是ChatGPT擅长的。通过精心设计的关键字和逻辑引导,ChatGPT可以形成很好的具有逻辑性的文字输出。估计以ChatGPT的迭代进化速度,以后写代码、跑实验部分很快也会被替代。因此,我对我的学生的要求是,必须要学会使用ChatGPT,需要了解他哪些能干,哪些不能干,要把它当成一个工具和对手,既要防备也要学会利用。

      2. ChatGPT的核心技术之一即人类反馈强化学习RLHF并不是新的东西,特别是自然语言处理技术NLP已经发展到能让机器在语义层面更高效地学习人类积累的海量知识。我觉得openAI的策略和alphago类似,关键都是要先做出一个人类能够接受的东西,再通过和人的大量交互来迅速迭代。目前面向公众开放的这个版本的GhatGPT实际上是用21年以前数据训练的预训练模型,这个模型虽然不完善但已经好到让大部分人愿意和他交互,后面海量的人类交互就会形成正反馈循环,加快ChatGPT的强化学习迭代。

      3. 尽管很多人说ChatGPT存在的种种缺点,但我认为这不是问题。ChatGPT目前这个版本虽不成熟,但已经具备通过自然语言和人类沟通的能力,与人类知识工作者相匹配的知识输出能力。也就是说,它是一个全面具备语义层交流、学习、反馈能力的机器了。我认为已经触到了那个奇点,通往强AI的路似乎隐约可见。后面迭代进化的速度一定是超乎想象的。但很多人并没有意识到,而且也没有做好准备。未来,ChatGPT所代表的强AI技术一旦成熟,必将替代大量的知识型工作。也就是说,ChatGPT的能力会成为一条基线,达不到这条线的人将会被淘汰。

      4. 尽管chatgpt还没有开源,但相信中国的chatbot很快也会出来。算法层面即使有差距,也不是决定性的因素。未来最关键的是中文互联网世界所蕴含的知识和用户总体。包括中文世界的典籍、科技论文、论坛、新闻和用户,我们这个圈子的水平也决定了所孕育的中文世界的chatbo的水平。

      5. 目前我看只有英文和中文世界具备足够的算力、知识和人口体量来产生超级智能体。这个智能体如果利用得当会反哺人类,加快知识积累。但是,它带来的虹吸效应会导致中文和英语世界之外的小民族在提早出局。畅想未来,那些掌握强AI和自动化核心技术的极少数精英和他们拥有的智能机器成为主宰,其余人类皆为蝼蚁。中西文明之间或许还存在一次终极对决,总决赛是在中国和西方世界的MOSS之间来进行,较量的就是算力、算法和真正的创新。或许我有生之年就有可能目睹这样的时刻,不知道是应该害怕还是兴奋。

      元宝推荐:神仙驴,铁手,加东, 通宝推:报以琼琚,繁华事散,梓童,scanning,鳄鱼眼泪,wage,鹰蓝,俺是老胡,潜望镜,田雨,wild007,脑袋,strain2,衣香楚楚,hnlhl,桥上,破鱼,菜根谭,履虎,吃土的蚯蚓,方平,尖石,白浪滔天,微笑问天,谷口白云,陈王奋起,上帝大叔,不远攸高,海外俗人,老惰,脊梁硬,加东,外俗内正,落木千山,心远地自偏,唐家山,铁手,土地革命,秦波仁者,
      • 匿名 除了算力水平、装备水平,参与人口数量之外,

        最终比拼的是中文和英文,哪一个更适合构建出聪明敏捷的AI超级智能体。

        不同文字语言会有不同的逻辑算法构建,第一,只有符合该语言的独有最优算法,从而才能产生趋于最高运算效率和准确率;第二,不同语言使用同一种算法逻辑,必然因为先天语言问题会另另其效率受阻、滞后。

        最后,本质就是语言文字的比拼,到底哪一个是天选之子?

      • 家园 深度好楼,深度好文,也聊聊我对ChatGPT初试

        非常感谢您与东东山楼主分享经过对ChatGPT的亲身实践而产生的深刻思考,受益良多。

        也顺便谈谈我的初试及感受,抛砖引玉。

        第一个问题:市场问题。微软的ChatGPT也好,Google的类似产品也罢,出发点首先不会是技术,而是市场 ---- 因为大家都要生存。Google之所以对ChatGPT如临大敌,倒不是完全出于拿不出对应水平的技术或者产品。我相信以Google的实力,发发狠,短则3个月长则半年,就能拿出可以一拼的产品(不只是技术)。问题是:拿出来了,又如何?

        搜索行业有一个悖论:公司给用户的答案质量越好,用户越快能找到想要的答案----意味着公司的利润率下滑得越厉害。搜索公司靠广告点击生存。

        第二个问题:ChatGPT的训练过程。

        我也是做了一个小实验,就3个问题(用英语,不用中文欺负它)

        1、Who will generate training data for ChatGPT?(ChatGPT 靠谁生成正负训练数据?)

        ChatGPT这次很老实,说还是靠人

        the training data for ChatGPT and other language models is typically generated and curated by teams of data scientists and engineers at the company that developed the model

        ChatGPT 和其他语言模型的训练数据通常由开发该模型的公司的数据科学家和工程师团队生成和管理

        2、我接着从三个方面套ChatGPT:

        How much training data has been used to train ChatGPT?

        How much is cost to train ChatGPT?

        How many computational resources (GPU or TPU) are used to train ChatGPT?

        使用了多少训练数据来训练 ChatGPT?

        训练ChatGPT 的费用是多少?

        使用了多少计算资源(GPU 或 TPU)来训练 ChatGPT?

        ChatGPT这次却很不老实,很不合作,拒不回答真相

        while the exact amount of training data used to train ChatGPT is not publicly disclosed, it is known that language models like ChatGPT require large amounts of training data in order to perform effectively.

        the cost of training a language model like ChatGPT can vary widely depending on a number of factors, but it can be a computationally intensive and expensive process that requires access to large amounts of data and significant computational resources.

        In summary, the exact number of GPUs or TPUs used to train ChatGPT is not publicly disclosed, but it is known that training large language models like ChatGPT requires significant computational resources, including many GPUs or TPUs working in parallel, as well as large amounts of memory and storage.

        虽然用于训练 ChatGPT 的确切训练数据量并未公开披露,但众所周知,像 ChatGPT 这样的语言模型需要大量训练数据才能有效运行。

        训练像 ChatGPT 这样的语言模型的成本可能因多种因素而有很大差异,但它可能是一个计算密集型且昂贵的过程,需要访问大量数据和大量计算资源。

        总之,用于训练 ChatGPT 的 GPU 或 TPU 的确切数量并未公开披露,但众所周知,训练像 ChatGPT 这样的大型语言模型需要大量的计算资源,包括并行工作的许多 GPU 或 TPU,以及大量的 内存和存储。

        以上两个问题,是互为因果的现实问题,是每一个有真正大规模运用前景的技术产品必须解决的问题。

        基于以上两点,我个人认为:

        1、ChatGPT当然是个划时代的技术产品(尤其是自然语言理解,比之前有了很大进步----这也不奇怪,微软在语言及语音识别方面投入了几十年功夫了)

        2、ChatGPT的训练数据尤其是关键的正负数据标记,还是基于人工----这就意味着它的训练成本仍然极其高昂,这也是为什么它拒不透露真相的原因----当然不是ChatGPT本身拒不透露,它没有这个智商更没有这个必要,而是它背后的人仍然有这个智商更有这个必要拒不透露---- 为什么呢?这就很值得寻味了。

        总而言之,ChatGPT应当值得高度关注。但是它是否已经离大规模真正成熟很近了----尤其是何时能实现真正的训练自我迭代自我循环(即无需费用极其昂贵的人工训练数据标记),仍需观察。

        通宝推:赵美成,梓童,GWA,落木千山,strain2,枪膛草原,桥上,宝特勤,神仙驴,
        • 家园 随便聊过一次

          点看全图

          外链图片需谨慎,可能会被源头改

          通宝推:外俗内正,方平,
          • 家园 我很想弄清楚它这两次错误是怎么犯出来的

            2023年的第400/500天,它最通常的做法是在理解语义的情况下去查万年历,然后回答“是2024年x月x日”。如果它到网上直接去无脑搜索并且得到了答案,那么按说绝大概率也不可能是什么11月多少号。

            这个题目不难,也就那么有限的几种处理方法。真想不明白它是通过什么途径搞出来的错误回复。

          • 家园 您将ChatGPT遛成了公公

            伊一脸的谄像。。。

            很好奇:是否有办法“激怒”ChatGPT呢,比如说伊是“颂圣派”或者“1450”啥的

        • 家园 公测怎么训练?

          我在国内校园,真看chatGPT到的机会不多。界面开始好像说公测是为了训练,那么多人去和他聊天,如果要形成反馈,它怎么判断自己说对了还是错了?如果还是和你说的公测前训练一样

          正负数据标记,还是基于人工

          对于如此访问量的公测数据,成本应该高到无法承担。如果像有的网友说的,第二次问就默认前面答错了,那很容易被误导。

        • 家园 补充一篇介绍

          ChatGPT 为啥这么强:万字长文详解 by WolframAlpha 之父

          https://www.ithome.com/0/674/290.htm

分页树展主题 · 全看首页 上页
/ 14
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河