去年11月,谷歌DeepMind在《自然》杂志上发布了一篇论文《扩展深度学习用于材料发现》。
DeepMind使用一个名为GNoME(材料探索图神经网络)的模型,预测出了220万种新的晶体,其中38万种具有稳定的结构。
过去的十年,世界各国的科学家用计算机模拟的方法发现了28000种新材料,加上人类利用传统实验的方法发现的大约20000种稳定性材料,人类发现的稳定晶体数量总共达到了48000个。无机晶体的发现在固态化学中具有基础科学和技术的重大意义。
乍看起来,DeepMind的方法,几乎把人类发现的稳定晶体结构数据扩展了一个数量级,而伯克利大学很快用一种AI智能代理的方法,在实验室中去自动合成这些晶体结构,同步发表了论文。
不出所料,DeepMind的论文引发了轰动。
“这些材料可能推动未来技术的发展”,谷歌在其新闻稿中写道,这相当于“近800年的知识积累”,并且是“人类已知稳定材料数量的一个数量级的扩展”。
另一篇同时发表的论文,由劳伦斯伯克利国家实验室的研究人员“与谷歌DeepMind合作……展示了我们的人工智能预测如何被用于自主材料合成”,谷歌写道。
在这个实验中,研究人员创建了一个“自主实验室”(A-Lab),使用“计算、文献中的历史数据、机器学习和主动学习来规划和解释使用机器人执行的实验的结果”。研究人员使用人工智能和机器人,将人类从实验室中移除,并且在17天后发现了并合成了新材料,研究人员写道,这“展示了人工智能驱动的自主材料发现平台的有效性”。
这两篇论文给人一种印象,科学智能(AI4Sceince)带来的范式革命,正在材料科技领域发生突破。
不过,来自化学和材料学术界质疑的声音开始出现。
包括普林斯顿、伦敦大学学院、加州大学圣芭芭拉分校的化学家和材料学家分析了DeepMind发现的一部分材料,他们认为,“我们尚未在那个子集中发现任何特别新颖的化合物”。用可信性、有用性、新颖性的尺度来衡量,还很难说DeepMind的研究是材料科学的突破。它的算法没有问题,但缺乏新颖性和有用性。
AI工具能如此快速地从海量数据中进行科学发现,但科学研究中最重要的一个环节,依然是同行评议。当化学及材料科学家对DeepMind的这项研究花时间进行深入分析后,他们发现,那些用各种算法算出来的东西,可能是非常肤浅地模拟了微观自然中一些表层的现象,它们经不起人类用科学实验进行检测。
一个更大的问题是,有多少假“科学智能”之名进行的研究,能否检验其科学性,有用性和新颖性。如果一个算法能完成人类数百年的研究工作,人类开始把大量的科学研究工作交给科研“智能体”,这样的科研成果一旦充斥于人类的知识库,我们是否将会被噪音彻底淹没?我们还有机会辨别吗?
科学智能有很大的潜力,但它依然是一种方法,依然要依据科学研究的方法和规范,依然要受到人类科学家的控制。而AI进行科学研究的自主性,可能是一个反复实验的过程,AI领域流行的打榜和对比方法,可能最终还是要经过学科领域内的科学家的评议,才能产生最终的结论。长期来看,科学智能还是需要human in the loop。
科技调查媒体404 Media联合创始人Jason Koebler采访了提出质疑的科学家和谷歌DeepMind,我们编译了其中的部分内容。如下:
上个月,两个研究小组分析了DeepMind和伯克利的论文,并发表了自己的分析,至少表明这项研究被过度推销了。
我在材料科学界交流的每个人都强调,人工智能在发现新型材料方面具有巨大的潜力。但他们表示,谷歌及其深度学习技术并没有在材料科学界取得真正的突破。
在本周发表在《化学材料》杂志上的一篇观点论文中,加州大学圣芭芭拉分校的Anthony Cheetham和Ram Seshadri随机选取了DeepMind发布的38万种提议结构的样本,并表示它们都不符合“可信”、“有用”和“新颖”的三部分测试。他们认为DeepMind发现的,应该描述为“晶体无机化合物”,而不应描述为更通用的“材料”,他们认为这个术语应该留给那些“展示出一些用途”的东西。
他们在分析中写道,“我们尚未在GNoME和稳定结构列表中发现任何特别新颖的化合物,尽管我们预计在384870种组合中肯定有一些。我们还注意到,虽然许多新组成物都是已知材料的无关紧要的改编,但计算方法整体上交付了可信的组成,这让我们感觉对基本方法还是靠谱的。”
在电话采访中,Cheetham告诉我“从对实验材料科学家有用的、实际的贡献方面来看,谷歌的论文还远远不够”。Seshadri说“我们实际上认为谷歌的这项研究并没有达到预期的效果”。
“如果我为某种特定的功能寻找一种新材料,我不会浏览谷歌提出的200多万种新组合”,Cheetham说。“我不认为这是进展的最佳方式。我认为一般的方法可能效果很好,但它需要更聚焦于特定需求,所以我们的生命中并没有时间去浏览220万种可能性,然后决定哪些可能更有用。我们花了很多时间在他们提出的一个非常小的子集上,我们意识到,尽管大多数可能是可信的,但不仅没有功能,而且它们并不新颖,因为它们只是已知事物的简单衍生品”。
谷歌DeepMind在一份声明中告诉我,“我们坚持谷歌DeepMind的GNoME论文中的所有结论”。
“我们的GNoME研究代表的,是比之前科学所知的材料多几个数量级的候选材料,我们已经预测的数百种材料已经被世界各地的科学家独立合成”,谷歌DeepMind补充说。
材料项目(Materials Project)是一个开放的材料属性数据库,它发现与其他机器学习模型相比,谷歌的GNoME数据库是顶级的。谷歌表示,《化学材料》文章中的一些批评,比如许多新材料虽然具有已知结构但使用了不同元素,实际上是DeepMind有意而为之。
与此同时,伯克利的论文声称,“自主实验室”(称为“A-Lab”)采用了另一个名为“材料项目”的项目提出的结构,并使用机器人在没有人类干预的情况下合成了它们,创造了43种“新颖化合物”。这篇论文中有一名DeepMind研究人员,谷歌在其新闻稿中推广了论文,但谷歌并没有主动参与实验。
分析这一发现研究人员发现,论文也有问题:“我们讨论了所有43种合成产品,并指出了分析中的四个常见不足。这些错误不幸地导致了这样的结论:在那项工作中没有发现新材料”,普林斯顿大学的Leslie Schoop和伦敦大学学院的Robert Palgrave在他们的分析中写道。
我再次强调,我所交谈的四位研究人员都表示,他们相信人工智能指导的寻找新材料的过程是有前途的,但他们分析的这篇论文并不一定是巨大的突破,也不应该被这样描述。
“在DeepMind论文中有很多预测材料的例子显然是荒谬的。不仅是对该领域专家来说,大多数高中生也会说H2O11(这是DeepMind的预测)这样的化合物看起来不对”,Palgrave告诉我。“还有很多明显错误的化合物的例子,Cheetham/Seshadri在这里比我更客气地揭穿了这个问题。对我来说,似乎连基本的质量控制都没有——机器学习预测输出这样的化合物,这是令人警觉的,对我来说某些事情出了问题。”
人工智能已经被用来在互联网上充斥着大量的内容,它们无法被人类轻易解析,反而让发现人类创造的高质量内容成为一个挑战。这是一个不完美的类比,但我所交谈的研究人员说,在材料科学中也可能发生类似的事情:巨大的潜在结构数据库并不一定创造对社会有积极影响的东西,甚至不一定会让它变得更容易。
“知道数百万种材料(如果准确的话)有一些好处,但你如何找到正确的方向,去寻找并制造有用材料?”Palgrave说。“知道一些具有特别有用属性的少数新化合物,要优于你有一万种化合物却一无所知哪个更好。”
Schoop说,已经有“50000种独特的晶体无机化合物,但我们只知道其中一小部分的性质。所以对我来说,如果我们还没有理解我们已经知道的所有化合物,为什么我们需要更多的化合物,这个道理并没有说清楚。预测材料的性质可能比仅仅预测新材料更有用。”
我想再次强调,谷歌DeepMind表示它坚持其论文的观点,并对这些(科学家的)评价提出异议,但公平地说,现在有很多争议:如何使用人工智能和机器学习来发现新材料,如何对这些发现进行情境化解释、测试和处理,如何和是否将大量潜在结构的数据库倾泻到世界上,以及实际上是导致对社会贡献了新颖的、实在的突破,还是它只会制造更多的噪音。
“我们不认为人工智能从根本上有问题”,Seshadri说。“我们认为这是如何使用它的问题。我们不是那些认为这些技术在我们的科学中没有位置的老派人士。”
参考链接:
https://pubs.acs.org/doi/epdf/10.1021/acs.chemmater.4c00643
https://journals.aps.org/prxenergy/pdf/10.1103/PRXEnergy.3.011002
https://www.nature.com/articles/s41586-023-06735-9
https://www.404media.co/google-says-it-discovered-millions-of-new-materials-with-ai-human-researchers/
本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究