五千年(敝帚自珍)

主题:【原创】我的chatGPT的使用体验 -- Swell

共:💬285 🌺1767 🌵12 新:
分页树展主题 · 全看
/ 19
上页
      • 家园 他可以学习迭代,知识进步很快的

        日后发个顶刊,也不足为奇。你用的是3.5版本,其实他们4.0版本搞出来了。

        当初阿法狗在围棋上战胜人类后,围棋就走下了神坛,人类对围棋冠军关注度下降了很多,阿法狗解构了围棋光环。

        chatGPT现在也在干同样的事情,解构灌水论文的光环,让社会觉得不再神圣,标志性事件可能是GPT发了篇顶刊,或者阿猫阿狗都能发普通杂志文章。只要不再神圣了,那么某些部门就不好只靠这个(论文指标)糊弄国家。

        目前首先受影响的是文科论文,其次受影响的实验数据类论文(生化环材等,堆砌不知真假的数据,填充辞藻华丽的文字),当然这需要GPT学习更多专业词汇(时间问题,迟早学会),至于公式推导类的,那就等尚待GPT的发展。

        chatGPT还会拉平大组和小组的人力差距。

        • 家园 GPT,可以省掉发文章的成本,但是省不掉做实验的成本。

          如果对于实验数据较真的话,生化环材才是不太好弄的。

          发文章和做实验哪个成本是大头一目了然。

          中等或者一般的期刊问题不大。灌水文章多,数据瞎JB写的也多。

          但是IF高了就不一样了。生不好说。化环材的可重复性还蛮高的。顶刊基本都属于可复现。

          不知真假的数据是肯定有的,但是IF稍微高一点的基本上都要求多类数据互相支撑,而顶刊更厉害了,材料学的基本还要求上传原始数据。填充华丽辞藻还真没有,你看稍微好一点的文章都是短小精悍的,四五千词就没了,图也就四五张。剩下来的数据几十页都扔在SI里。

          公式推导类的才是真危险,不过早就是打不过就加入了,他们80年代就开始玩神经网络了,可能是地球上最早一批玩这些的人,不过么,要出东西就得烧算力,掏钱,掏大钱。也是这个时期国内外基础学科的差距被大幅拉开,没办法,当时别人研究基础数学用超算,国内研究基础数学还得上街摆摊,纸笔都得省着用。

          /

          很多问题都属于自然界就是这个鸟样,规律不规律的就是这样。围棋讲道理,有规则,可以自己和自己下,自然界不讲道理,涌现性遍地都是,还不讲还原论。迭代不起来啊。假如你要说AI加速的第一性原理计算的话,早就是每篇文章人手一份了。炒菜没有DFT还敢发文章?

          比如某某合金在950°C热处理5分钟以形成厚度为X微米的某个β织构。这种外人一看就觉得是垃圾数据,但是实际上做起来工业来就晓得就这种数据最重要,很多时候这种数据就是没得找,有的时候全地球就这一篇文章测了这个数据。你要自己去弄,一个博士带俩硕士,一百万经费,一年,也许可以弄出来。

          /

          顶刊或者说材料学的迭代基本上属于烧实验经费,也就是烧炉子过柱子这些,纯纯的实验数据收集器。某些新结构还得就得扎扎实实的拿几千块钱5g的Sigma-Aldrich出的高纯试剂在某个条件下去获得,你换成国药或者阿拉丁的就是弄出不来。这种情况下AI玩出花来也没用,纯属工业条件限制

          通宝推:方平,铁手,桥上,心远地自偏,无竞,唐家山,北纬42度,
          • 家园 那OpenMM和谷歌那个蛋白质预测怎么说

            我第一个想到的也是材料科学,如果突破了,那死最快的是西方某些特殊合金和热处理之类的隐形冠军,国家会建立巨型数据库,做到定制某种合金,还是冶金集团公司规模的定制。

            • 家园 因为还原论不成立啊,还有谷歌毕竟是一个广告公司。

              那个蛋白质折叠只能说达到了类似于无机材料80-90年代的进度,也就是终于有一个可以纯理论计算的数据库了。

              问题是无机材料这边由于结构更加简单,早早的就是用计算机全生成各类结构来着了。原子少的结构,第一性原理下可以从量子力学从零还原出整个材料,几乎百分之百精确。但是有人叫嚣着从此能够闭着眼睛合成各类无机材料了么?没有。知道结构和知道怎么合成完全是两码事。

              计算化学发展到今天反倒是大大助长了刷论文的风潮,因为很多时候其他人根本没有那个资金和精力去验证冷门小产物。

              /

              现阶段对于无机材料,对于理论计算出的结果,学术界在过了盲目期以后,目前而言属于可以参考但是不能信任,因为没人知道你用的算法到底会不会在其他材料上碰壁,可以调改的参数太多了,各类无机晶体结构基本上来说最终都是需要晶体学数据库的人多次根据实验结果重复精修后确认,然后才最终会被收录。

              /

              何况,由于涌现性,能预测螺丝钉的形状,没法预测汽车是怎么构建的。

              而且蛋白质不是一个固定不动的结构,是一个动态的结构。动态作用外加动态结构交互,而正是这两点才是现今结构生物学界最关注的问题。

              作为对比,锂电池材料由于结构简单,就是碳C和钴酸锂LiCoO2,磷酸铁锂LiFePO4啥的,早早的就可以纯理论计算出锂离子和正负极材料的动态相互作用了,已经越过了这一层,但是你看有天上掉下来个无敌电池材料么?没有,材料失效崩溃的时候,板层的断裂和枝晶的生长都是概率分布的,算出来也没用。

              通宝推:方平,心远地自偏,桥上,muiaao,唐家山,
              • 家园 计算化学的精度还不行

                目前量子计算主流的方法是DFT,精度只能说凑合,有一定参考价值,流行只是因为算法复杂度是N^3,而那些比较精确的方法至少N^6。锂电池体系因为是固液界面混合物,需要极大尺度计算,对DFT来说仍然太大,至今没啥好办法。

                生物分子模拟靠经验力场,一堆经验参数,比如说某些参数的计算方法四十年就没变过,现如今早已有了更高精度的办法,但高精度办法算出来的参数反而不好,也没人知道为啥,这活以后都得交给AI去做。。。

                通宝推:心有戚戚,领班军机,
          • 家园 我倒是觉得AI会进一步放大大组与小组之间的差距

            材料好灌水的原因就是因为材料炒菜的确种类太多了。化合物多,元素多,背后涉及到的现象更多,自由度高到天上去了。

            比如现在大热门的固态电池,你给NASICON换个包裹材料再换个烧炉的温度,看上去都是炒菜,但是出来的东西一翻上游的PRL的文章,会发现完全涉及到是两个根本不同的物理效应,要跑第一性原理模拟起来的时候用到的软件包都不一样。

            还有很多实验室小批量实验随便合成的样品,进入中试阶段之后怎么弄就是出不来,设备和原料都没问题,到最后烧了四百多万钱烧完了,投资人撤资了,项目无疾而终。

            /

            我倒是觉得AI会进一步放大大组与小组之间的差距,而且已经是这个趋势了。大组可以批量快速的统一收集数据喂进去DL去,大组的代码质量更高,大组买得起更贵的商业软件和数据库还有专职码农,更大的数据集配合更高效的代码有更大的可能获得成果,对于小组的碾压性更强了。尤其是理论计算部分比较麻爪的高温化学模拟和采样,现在都是皮秒级,结合AI之后可模拟的时间尺度更上一层楼,可以进纳秒了。不排除以后出现专门的公司制造特殊设备大批量的收集采样理化数据然后喂进AI里,强行弄出经验or半经验的程序和数据库,这样可以批量开除硕士博士生,但是这么搞下去,出来的东西判断准不准就不好说了,毕竟大力出奇迹的本轮均轮也可以强行拟合天体运行轨道么。

            /

            在生化环材真正涉及到AI的,国内现在的问题,就是代码质量差,技术缺乏专业性。国内自研计算软件,量化程序、波函数分析软件软件、构象搜索软件,自动反应搜索软件等等处于极度落后的态势。而且肉眼可见国内码农不懂也不屑于来弄这些东西,这才是要命的。

            /

            不过么,计算化学灌起水来,嘿嘿,可比材料组厉害多了。

            通宝推:方平,陈王奋起,胡辣汤,落木千山,唐家山,北纬42度,
    • 家园 打个赌,美国人将为此开发出一种虚拟货币

      区块链——>比特币

      chatGPT——>???

      比特币就过气了价值归零

      韩国人成为最大输家

分页树展主题 · 全看
/ 19
上页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河