五千年(敝帚自珍)

主题:chatGPT是我朝面临的巨大挑战!应鼓励天才和尖子,刻不容 -- 玄铁重剑

共:💬92 🌺484 🌵17
全看分页树展 · 主题 跟帖
家园 很多科研难搞就是因为数据太少

科研问题是典型的高维稀疏特征,这也是AGI最大的难点,没有之一。

但是要能针对性的增加数据,这一点恰好是可以解决的。当然,这个过程可能会持续将近10年,这也是人才培养体系最后的转轨期。

因为重要的数据,不是文章!是数据,不是文章!

/

因为之前已经发生过一次了,就是在生化领域大量的自动化替代,使得数据量指数级增长,最终诞生了alphafold这种玩意。你现在用“高通量”为关键词去搜会发现生化领域受惠于每年天量的研究资金,相关技术几乎全进化到了自动化版本。

比如这一个

https://www.mt.com/cn/zh/home/applications/Laboratory_weighing/high-throughput-experimentation.html

进行有机反应优化的典型工作流程

高通量试验打开了新的视角

自动化和6轴多臂机器人辅助的反应样品制备

进行有机反应优化的典型工作流程

全自动制备多组分配方(多对多)

在多达30个目标容器中自动加样一种固体物质(一对多)

高通量试验(HTE)可实现快速反应优化和针对治疗靶点筛选化合物库,彻底改变了药物研究。在采用HTE之前,手动程序将实验室的筛选测试能力限制为每周20-50种化合物。例如,一个包含3000种化合物的化合物库本应需要1-2年的测试时间。自动化技术大大加快了此类筛选实验的速度。使用THE,可以在指定条件下同时快速且不间断测试大量实验样品。每周进行800-1000个筛选反应非常普遍。可将筛选3000种化合物的假设库缩短至3-4周的测试时间。

/

这就是为什么生化领域是沦陷最早的,因为是最早自动化的,使得高维稀疏数据不再稀疏。很多比较领先的有钱组都是自动投材料自动收样品,样品自动收数据,全套高通量实验配合自动化分析,这种情况下产出的大量数据最终暴力跑通了不限于alphafold的一系列AI模型。所以alphafold为什么牛逼?因为施一公及那帮做crystal structure的人发现它真的牛逼。不需要再招塑料袋了。

/

这也是我觉得随着GPT模型泛化以后,基础科研数据的价值大幅度升高,使得很多不那么热门有钱的领域也会被拉入了自动化的猎杀范围,使得以后会像生化领域一样,同样会有公司制造专门的自动化机器批量产出数据投喂科研AI的代替大量硕博士。等于是GPT哪怕什么都没做,仅仅只是这个时代的号角声,提升了科研数据的价值,就变相的淘滩了大部分人罢了。

贵是贵,但是出来的数据绝对比现在散落在地球各地手工业师徒制产出的数据要可靠,大量淘汰师徒制硕博士研究生,到最后只会有同样有钱大组买得起先进自动化设备和软件授权的教授幸存。而少量没钱只能继续手工业的落后小组,他们的产出是几乎毫无意义的。只要能保证数据的来源,人类写文章是毫无意义的。

和很多人想的AI时代会缩小人力差距不同,未来更可能的是科研领域马太效应更加严重。科研领域要告别师徒制了。留给个人的只有大公司不做的夹缝,正如openAI逼得搞NLP的纷纷转行或者打下游一样。

通宝推:川普,
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河