五千年(敝帚自珍)

主题:【原创】我的chatGPT的使用体验 -- Swell

共:💬285 🌺1767 🌵12 新:
分页树展主题 · 全看
/ 19
上页 下页 末页
        • 家园 互联网上中文网页干扰信息如广告很多清洗难度很大

          被他们占用了别人还能用吗?可惜了,浪费了moss这么好的一个流量id

          复旦 MOSS 团队发布公告称:非常感谢大家的关注,MOSS 还是一个非常不成熟的模型,距离 ChatGPT 还有很长的路需要走。我们一个学术研究的实验室无法做出和 ChatGPT 能力相近的模型,MOSS 只是想在百亿规模参数上探索和验证 ChatGPT 的技术路线,并且实现各种对话能力。

          • 家园 突然想起小时候

            模仿街上小贩的叫卖

            广告检测算法、垃圾邮件检测算法、甚至广告推荐算法、点击率预测算法拿来也许有帮助,毕竟发展那么多年了。

            比较正经严肃的途径,还有维基、还有各种档案、纸质出版物。爬虫且不说版权问题,控制上就很麻烦。

            还是那句话,很多事情做成是要钱的。冯布劳恩、钱学森在年轻时自己玩火箭,但是后来还得国家级力量的支持、加入到国家级的力量中去。

      • 家园 我试试回答

        入门水平,说多必错。

        首先它不是搜索引擎,这是它的缺点。你问它“美国打下来中国的气球了吗?”它应该说“没有”。因为它是根据过去的数据训练的,没法实时的知道发生了什么。同样你问他“昨天天气怎么样”,它也不知道。

        所谓AI,我认为从数学或者计算机上理解比较好。它还是一个计算机程序,和我们写的“hello world”并没有本质不同。简单理解就是它创造了一个海量的变量组成的一个非常复杂的函数。既然是函数,那么就有输入(你的问题),有输出(它的答案)。而这里面值钱的是函数的具体系数。据说训练一年几千万美元(估计还是白嫖微软之后的价格)。

        但是这个海量是非常值得说的。它有几个迭代的版本,变量由最初的几个亿已经到2000个亿左右了。什么概念呢,人的大脑只有200个亿左右的神经元。但是人的大脑显然不可能100%同时工作。 而据说下一代的版本还要更多的变量。所以我们人类真的不要觉得大脑有什么了不起。十几年前面对上千万个变量的时候我们还在俯视,现在恐怕不行了。我真的既担心又期待未来的某一天,机器学习可以独立的推导出一些科学公式,让我们引以为豪的创造力变得也没那么神秘。

        这些都是公开的,但是不公开的叫做训练方法。其实数学上来说就是你做一个优化,怎么才能快速,用很小的代价就获得收敛。这个话题确实需要一定的知识做基础。简单来说就是:想靠暴力是没机会的。一个问题随随便便就可以让世界上所有的计算机一起算到宇宙末日都无解。这就是计算科学的核心竞争力了。通过各种方法投机取巧迅速获得答案。计算数学的例子大家都知道就比如快速傅立叶变换。

        这个程序它用到的训练方法叫做监督学习,简单说就是用人。机器给出答案和人的答案进行比较,人给答案打分。我知道的就这么多了,显然不可能这么简单了。

        国内能不能赶上呢?非常简单,国内愿意不愿意花钱呢?不愿意花钱,这个项目之前的程序是开源的。我个人认为开源的部分基本上90%的东西也都有了。但是你就又一次落到了后面,甚至越落越远。愿意呢,只要肯砸钱,计算科学有啥神秘的。 咱们订个政策,机器学习用电免费。我猜微软可能都把机器搬到中国来。

        通宝推:潜望镜,辣椒,
        • 家园 关于chatgpt大家都错了兴奋早了

          综合今天看到的内容,总结如下

          昨天兴奋地以为人类创造了一个纯理性纯客观的纯粹的问答机器,我以为它是一本给权威答案的新华字典,我们想象的它是阿法狗的升级款,它只懂下棋不懂政治。

          还是幼稚了,事实证明它很懂。否则人类的很多谎言就被戳穿了,帝国要炸天要塌,事实证明这不可能发生。

          数据投喂嘛,也就是谎言说一千遍就是真理的同义词。

          那它的答案就还是搜索内容,并非自组合自生成内容。

          还是咱们正在干的人工智能工业应用靠谱,例如盘古。少来给我们定义什么。

          chatgpt,以后叫这个玩意,要墙,得禁。师母已呆吧。

    • 家园 AI 的答案从哪里来?

      以前有个很有名的问题,好像是主席的文章里的:人的正确思想从哪里来?答案是从实践中来。那么对 AI 来讲,它的正确答案从哪里来?它不能亲自做实验来验证一个方案,也不能创造一个新的概念。它的答案应该是从外界输入的信息,通过一定规则筛选(比如检查逻辑是否自洽等)给出。也就是在强大的搜索能力和计算能力的加持下,通过总结已有的知识经验,来给出答案。外界的输入信息就很重要了。记得几年之前微软就推出了一个聊天机器人,结果没几天就被网友玩坏了,满嘴脏话。现在这个好像是更强大的升级版,有一定自我防卫系统。

      现在chatGPT 的功能已经很令人惊叹了,我觉得以后小镇做题家的空间会被大大压缩,按步就班类的工作很容易被取代。创造力,想象力被进一步突出。以后培养娃要向这个方向努力了。

      • 家园 来自于chatGPT所使用的数据集

        图书馆,当前的互联网,今后的互联网,三个不同的数据集。从前到后,信息量的大小是递增的,信息的干净程度的递减的。假设信息量的值是1,100,10000;信息的干净程度是100,0.1, 10(-4)(我的拍脑袋,大家不必较真)

        今天的chatGPT是从图书馆和当前的互联网学习的,那么它获取干净知识的估值是100.1

        未来的chatGPT beta是从图书馆和今后的互联网学习的,它获取干净知识的估值是101。基本上,出道即巅峰。

        为什么?由它产生的大量虚假知识可能会封闭掉它进化的可能。

        另外,chatGPT生成内容与阿拉法狗搜索棋盘格点价值的底层逻辑是不一样的。所以,不应该用阿尔法狗的进化类比chatGPT

        通宝推:陈王奋起,履虎,Swell,
        • 家园 可以引入people rank

          或者page rank来解决信源可靠性问题,信息污染会加大,但使用量增大百倍、千倍后污染比例反而会更小。

          我的观点是随着chatGPT对人类存量智慧理解到一定程度将很难继续发展。

          要嫁接传统的卷积神经算法获得新知识,和现有的体系完全接不上。

          通宝推:心有戚戚,
          • 家园 深度学习大潮起来的时候

            有一个观点很有意思,说人类的思考在本质上是深度学习+贝叶斯系统。我的理解是人类的思考在最初时是“归纳”的。但是如何从"归纳”的系统中得出最基本的逻辑推演,或者说是生成“演绎”系统,需要一个跃变。这个跃变是人类文明最亮眼之处。

            古代先贤在这方面肯定是做过深入思考的。佛教就有三支五明的因明学,西方是亚里士多德的三段论。但是真正成形还是欧几里得对几何的公理化。

            如果ChatGPT跟人类的思考在本质上有相同的地方,那么ChatGPT类的发展应该也会遵循类似的路径。目前我还没观察到这一点。

        • 家园 互联网的干净程度也差别巨大吧

          比如med pub上的知识,我认为和图书馆知识的干净程度几乎相同,它也是随着时间不断增长的。另外像elsevier等等,基本上可以看成是一个快速增长的在线图书馆。另外,加上各种政府企业文档,软件手册。

          稍微差一点的, 我认为可以去主流的门户网站,报纸,杂志,技术上,stack flow, GitHub。

          其他的我认为就不用参与训练了。

          • 家园 GPT-3的训练数据集达到45TB

            这是21年一篇技术博客写的。我没有查GPT-3.5是多少,chatGPT是从GPT-3.5优化参数得来的。你提到的好的技术文档,基本还是与时间线性相关,或多一些。但网络上的无效信息是指数形式的增长。当普罗大众都可以用AI创作内容之后,无效信息的增长会更空白。

            • 家园 我的看法

              稍微总结一下:比如说普通信息增长是1000, 那么有用的信息的增长可能是1。

              但是从原创性和有效性来说,可能有效信息是1000, 普通信息是1。换句话说,单位信息有效性差了10的6次方。

              类似于网上灌水,论坛之类的信息基本没有用。要么发泄情绪,要么剪刀浆糊。

              所以我认同这种工具所谓出道即巅峰,因为未来几年甚至几十年有效信息的增长,也许不到5T。与此同时,这种工具的主要目标是理解人的语言,所以只要理解能力达到80%,甚至90%。我们增加训练内容也就是增加图书馆藏书量一样。它再训练一下,知道了2022年世界杯冠军是谁,土耳其地震怎么回事。如果不训练,它会回答不知道。

        • 家园 这么说的话,美国掌握互联网的根服务器是巨大的优势。
          • 家园 美国的优势正在缩小

            根服务器又叫根DNS域名系统。

            在ipv4时代,美国确实牛逼。全球13个根服务器,唯一的主根在美国外,还另占9个辅根。然后英国、瑞典各一,日本一个。

            伊拉克战争期间,美国曾利用这个系统将伊拉克.iq屏蔽在全球互联网之外。

            中国曾申请过一个辅根,但被驳回。2015年中国领衔发起“雪人计划”,联合其他国家在ipv6下建立25个根服务器。中国获得1个主根、3个辅根。

            现在互联网世界是ipv4与ipv6共存、互通。2019年ipv4的43亿个地址分配完,以后全是IPv6分配。这样下去,ipv4分配的份额将在全球互联网中占比越来越少。

            不过,需要警惕的是,美国对IPv4仍是绝对控制。所以,中国以前在IPv4时代获得的域名仍有可能是在美国控制之下。

            一些关键性的、战略性,中国大概会在ipv6下做好备份。

          • 家园 数据集和中美无关,和钱有关

            古时候也是这样。有钱人家里藏书多,读书破万卷,容易得状元。穷人寒士看来看去就那几本书,读成曰夫子也中不了秀才。

            有人有钱就可以建立数据集。好多数据集是开源的。用数据集训练模型贵,真贵,上万颗GPU。估计中国舍不得

            通宝推:履虎,
分页树展主题 · 全看
/ 19
上页 下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河