五千年(敝帚自珍)

主题:【整理】中国是发达国家粉碎机,将所有国家变成发展中国家 -- 喝点红茶上会网

共:💬67 🌺527 🌵6
全看分页树展 · 主题 跟帖
家园 Why Science is in Trouble

The Big Data Brain Drain: Why Science is in Trouble

这是最近一篇说的比较有深度的分析,揭开了现代科学研究与软件,数据的依赖关系,以及为什么科学发展的停滞原因。

-----google--------------

不管是什么,你可能会认为无处不在的“大数据”米姆,很显然,数据集规模的不断壮大,改变我们周围的世界,我们的方式方法。这是真实的领域的行业媒体,学术界和政府之间几乎无处不在。我们的能力的增加,收集,处理,可视化和大型数据集学习,帮助我们的知识推动边界。

但是,在科研方面,最近加速转向以数据为中心的科学有黑暗的一面,这可以归结为:所需的技能,成为一个成功的科研人员所需的技能是成功的行业也越来越难以区分。学术界,典型的惯性,逐渐转变,以适应这个世界,其余已经开始拥抱和奖励这些技能,更大程度不幸的结果是,一些最有前途的即将到来的研究人员都发现自己没有地方在学术界,而以营利为目的的世界行业代表,用财大气粗张开双臂。

不合理数据的有效性

在1960年,物理学家尤金·维格纳发表他著名的论文,数学在自然科学的有效性不合理。它阐述了令人惊讶的程度,抽象的数学概念似乎远远超出了那些在他们开发的背景下保持有效性。毕竟,谁会猜到,黎曼19世纪研究非欧几何就形成了爱因斯坦的引力反思的基础,或者,编纂抽象的固体旋转组可能最终导致物理学家,以成功预测了希格斯粒子的存在玻色子?

与此相呼应,在2009年,彼得·诺维格谷歌研究员阿龙哈勒维和费尔南多·佩雷拉写一篇文章的标题下的不合理数据的有效性。在的话,他们描述了一个令人惊讶的洞察力,给予足够的数据,数学模型的选择往往会停止作为重要的-特别是对于自己的任务,自动语言翻译,“简单的模型和大量数据特朗普更复杂的模型,以较少的数据“。

如果我们的飞跃,并假设这种洞察力可以至少部分地延伸到超越自然语言处理领域,我们可以预期的是这样一种情况,“仅仅是”数据挖掘技术领域的知识越来越多莫须有的。我认为,这个预测已经开始进行平移出:在广泛的学术领域,有效地处理数据的能力,取代其他更经典的研究模式。

现在,我不是在这里争论域的理解是完全过时;毕竟10GB/second的大型强子对撞机(LHC)所产生几乎是无用的,除了从固体粒子相互作用产生这些理论的理解,就像的原始图像数据制作的大型综合巡天望远镜(LSST)15TB/night很少有告诉我们关于宇宙学的缺席我们的理论洞察驱动宇宙膨胀的物理过程。但大型强子对撞机和LSST反映科学成果越来越普遍的情况是完全依赖于利用先进的手段来分析大型数据集。事实上,我们发现,即使数据不太有资格作为“大”,科技进步越来越多地被带动下操作,可视化,矿山,并从数据中学习的技能。

科学家的新品种

数据驱动的研究在某种意义上,这仅仅是一个延续过去的趋势。自我们棚亚里士多德的在16 17世纪,科学进步已在很大程度上基于实证实验和观察。毕竟这是第谷·布拉赫的前所未有的16世纪的巡天,导致开普勒17世纪的行星运动定律和牛顿的万有引力定律,铺平了道路,最终爱因斯坦的广义相对论。科学家们一直埋头苦干的数据不同的是,今天这种行为拼杀日益重要的科学过程。

然而,日益增长的数据为中心的科学,已经导致新的方式来解决问题:在大型强子对撞机和LSST的时代,最令人兴奋的研究正受到那些具备专业知识,应用高性能并行数据统计算法提出有趣的问题,社区产生巨大的数据集。它是由新的统计方法的应用,新的机器学习算法,以及新的和更快的代码重复经典的分析,在前所未有的规模。 总之,新品种的科学家必须是广泛训练有素的专家统计,计算,算法的建设,在软件设计,以及(也许是作为一种事后)在领域知识。从粒子物理学,基因组学,生物化学,神经科学,海洋学,大气物理学和无处不在两者之间,研究是越来越多的数据驱动,数据收集的步伐没有显示出减弱的迹象。

科学软件的基础性作用

科学软件的共同点是:这项工作没有发生不写代码。除非该代码是写得很好,良好的记录,并公开共享与社会,最重要的科学过程的可重复性将受到威胁。很多人都写有关当前在科学上的不重现危机,需要新的形式出版,并新开放的研究,代码和数据的访问。我不会住在这里就这些问题。

我会住在大型数据集的分析和可视化,优化,专业软件中的核心作用和其在现代科学研究中的核心作用,直接翻译。我的合作者盖尔Varoquaux和他的同事们最近发表的社论争论这点 (在这里看到盖尔短的总结),和的情况下,开放的,良好的记录,以及行之有效的科学代码,不仅在现代科学研究中的可重复性是必不可少的,但研究本身的进展。新的研究不能建立在过去的结果,如果这些结果只是在一份文件中提到,与实际生产过程中他们在无证的代码隐藏在某处某人的笔记本电脑被困。和Donoho由于Buckheit写,

一篇关于计算科学,环境学科的出版物是没有奖学金本身,它仅仅是广告的奖学金。实际奖学金的完整的软件开发环境的完整集合的指令,生成数字。

代码公开可能看起来像一个可有可无的东西,但一般只是释放代码是不够的。布兰登·罗德在他2013 RuPy谈话把它,“一个程序的工作的那一刻,它是更好地说,它勉强 “。科学有用的代码超出了研究组产生的,它需要一个重大的投资金额。像NumPy的,SciPy的学习的Scikit,和其他的项目,这是令人难以置信的价值:他们给研究人员提供一个框架,使他们的代码是共享的,在github上,同行评审的研究社区的利益和释放。

学院的断开

这给我们带来学术界的核心问题:尽管当前科学研究的范式心性证据充分的,写得很好的软件,学术界已经被奇成功阻止这些非常的做法,将有助于其成功。 在的“发布-或灭亡“的模式,最占主导地位的研究型大学,建设和记录的软件工具花费任何时间是花费的时间不写研究论文,学术奖励结构是主要的货币。因此,除了在某些特殊情况下,那些专注于重现性和开放式的软件不太可能建立促进学术系统内所需的简历。那些可怜的灵魂在于科学的软件开发,而不是科研论文的写作的礼物大多会发现自己在学术界的边缘。

在一定程度上,一直存在这样断开。学术体系一直在别人的牺牲回报的一些技巧:教学是一项基本技能这是perenially边缘化的一个经典例子。但也有两个主要的差异,使目前的讨论更令人担忧:

正如我前面提到的,这个技能现在通过学术奖励结构的裂缝滑动的非常现代研究的成功所需的技能。

随着利用的工具数据密集型发现的几乎整个世界,现在相同的技能学术界忽略和贬低恰恰最看重的技能和奖励行业内。

这场完美风暴的结果是技术研究人员认为一个阴险的渐变拉出的研究和进入行业的就业机会。虽然软件为重点的工作确实存在于学术界,他们往往是收入较低的位置,而在终身制的威望和升迁机会发现。产业是极具吸引力:它是解决有趣的和紧迫的问题,它提供了良好的薪酬和福利,它提供了一个路径迁徙鼠轮临时博士后职位,甚至常常鼓励基本主题的研究和出版。也许,最重要的是,行业提供职位的威信和职业发展的一种现实的可能性, 这真是一个奇迹,我们留在学院。

我特别担心这个,在我自己的天文学和天体物理学领域。LSST项目正在加速光朝着这个十年结束。其目标的实时处理30TB的数据每晚超过十年的过程中,是令人难以置信的野心。要处理的数据量,该项目可能会被聘请几十个数据集中的天文研究人员在未来几年。鉴于所需的技能,以及与目前在学术界面向工程职位的薪酬水平和职业前景,我有一些严重质疑该项目是否能够吸引到足够为这些职位的申请人池。

学术界应该如何适应?

我在没有办法的唯一的人思考这些问题。我讨论这个话题的作品与来自全国乃至世界各地的许多人,我知道有政策制定者和资助机构思考这些非常问题。但实际的问题,如何来解决这些问题显得很大。抱怨文化学术界似乎有一个共同的过去时学者:一些什么,我这里说的呼应迪尔德丽·麦克洛斯基的学术声望法:“更有用的领域,降低其信誉”。虽然这是最初铸造哀叹地位低下的大一写作和组成等基本主题,似乎随时适用于当前的主题。

我认为,信誉的概念的关键是:解决问题的办法在于采取故意在学术界措施追赶那些谁的工作必不可少的软件工具,当前数据驱动的科学发展产业,增加的声望研究。有几个研究人员,资助机构和政策领导人具体的事情可以做推广。这里有几个想法:

继续按可重复性的重要性,在学术刊物上。这不仅是绝对必要的科学过程本身,但可重复性依赖于开放的,良好的记录,并编写良好的代码。制作这段代码的出版过程中的一个重要组成部分,将会使这些软件技能学术界的重要组成部分。

推入一个新的任期轨道标准评价标准:其中认为,随着更多的传统活动,如出版和教学的创建和维护开源软件。这将消除对投资生产清洁,记录,和开放代码的主要不利因素。

创建并资助一个新的学术就业跟踪教学,科研,任期轨道教师,研究生和博士后奖学金。这些职位应特别强调和奖励的发展,开放的,跨学科的科学软件工具。像这样的位置,将提出一个可行的学术生涯路径,为那些热衷于建立和维护自己和同事使用的必备软件。

加大博士后科研职位的薪酬, 有些人可能认为这种想法争议,但目前的情况是绝对不可持续的。NIH位置该基地博士后薪水是每年40,000美元以下的人谁刚刚完成了在各自领域的博士学位。这是慷慨地增加至约每年5万美元后七(!)的年博士后经验。在这篇文章中提到的技能,可以很容易地问几次,补偿了第一年的行业工作,会发现自己的工作设置有趣的问题,在他们的计算能力被利用和重视。

我担心,没有这些各种各样的文化学术界本身的变化,科研进展severeley的残疾人在未来几年。

我们生活在一个激动人心的时刻,我们的科学理解我们周围的世界的深度和广度正在不断加速的带动下,收集,存储,处理,规模空前的数据集学习能力。为了跟上这个步伐发现,最好的研究人员需要激励留在研究界。这不是一个容易解决的问题,但一点点的努力,我们可以保证科研界到未来的健康和可持续发展。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河