提问 发文

前沿技术研究:材料科学-数字孪生愿景 | Nature Computational Science

微微菌

| 2023-05-31 15:19 1330 0 0

随着人工智能artificial intelligence(AI)的激增,合成化学有望从其进步中受益。尽管数据集中的隐藏变量和“未知的未知”,可能会阻碍实验室化学仪器的数字孪生实现,但仍有很多机会,利用人工智能和大型数据集,赋能推进合成科学。

如果提供足够的经验数据进行训练,人工智能(AI)可能会解决科学和工程中尚未解决的问题,这是一种雄心,或许可以对人类难以解决的问题,做出准确的判断。合成化学领域提供了许多这样的问题。鉴于过去一个世纪的现代化学,合成化学和化学反应经验结果的集体理解,分布在期刊、专利和实验笔记。这些机构知识的子集,目前已经处理成大规模的化学反应数据库,因此,将这些数据集与人工智能相结合,有望推动合成科学,并取代启发式和试错法合成化学设计范式。
正如决策算法代表了自动驾驶汽车的主要人工智能挑战,合成规划算法是实现自动驾驶化学合成实验室的主要瓶颈1,2,3。即使知道想要合成什么样的预定分子或材料,并且拥有实验硬件,设计一个具有反应条件完全规范的详细过程,也是一项艰巨的挑战。
近日,美国 密歇根大学(University of Michigan)Nicholas David, Wenhao Sun,麻省理工学院(Massachusetts Institute of Technology)Connor W. Coley,在Nature Computational Science上发表评论文章,们思考了有机和无机化学合成的可用数据集,以及当今可用模型的能力。还绘制了极具潜力的前景道路(图1)(推动基础学科与前沿科技间的交叉碰撞,助力物质科学研究走向精准化、智能化的新范式)从而实现人工智能前沿技术赋能基础科学。
在这些训练数据集中,代表“未知的未知”的合成隐变量是特别迫切需要解决的问题之一。然而,机器学习machine learning(ML)/AI作为“实验室助手laboratory assistant”发挥着极具价值的应用,可处理实验观察,并提出新的探索方向。
图片
The promise and pitfalls of AI for molecular and materials synthesis. 
人工智能在分子和材料合成中的隐患和前景。

图片图1:基于布鲁姆教育目标分类法,人工智能赋予材料合成科学的机遇。(从可访问和可搜索数据(短期)的基础开始,以虚拟实验室辅助(中期)形式构建更先进的功能,作为更强大的数字孪生和自主实验室(长期)的前奏。同时注明了在每个阶段,授权科学家提出的示例问题)

1

短期愿景:可访问和可搜索数据

相比于传统搜索引擎方法,将现有知识收集并分类到结构化数据库中,为文献综述提供了大量的附加值。数据的数字化,使编程查询能够回答诸如“以前尝试过什么?”以及可能更重要的“以前没有尝试过什么?”


对于合成有机化学,此类数据库已经以商业产品的形式存在多年,例如SciFinder(www.scifinder.cas.org)和Reaxys(www.reaxys.com),以及最近的化学反应集合,例如Pistachio(www.nextmovesoftware.com),开放获取的USPTO数据集4,以及新兴的开放反应数据库5。其他信息(不受文献偏向于高产反应的影响)存在于防火墙电子笔记软件electronic notebooks。这些资源使实验记录以数字格式访问,通常用于识别感兴趣分子的已知合成制剂,但仅包含与研究人员最初报告数量一样多的程序细节,这可能不足以实现该领域的长期目标。

在无机材料化学中,还没有商业数据库对反应配方和合成结果进行分类。然而,自然语言处理算法,可以应用于科学数据语料库,以学习语义关系6,7,并准备大型结构化数据集。成功案例包括无机材料合成反应的文本挖掘数据集,并提供了19,488个无机固态合成配方8和35,675个基于溶液(水热和溶剂热)的合成配方9。尽管约50,000个机器分类的化学反应示例,远远多于以前编目的化学反应,但大约仅有四分之一的文本挖掘段落,是由机器学习程序完全处理的,这取决于标准化化学合成方法的语言,以及公布前的验证程序(www.syncheck.org)10。

即使没有机器学习,直方图和分布图等数据可视化,也可以对科学家有所指导,即识别参数空间或化学空间中的空白位置进行筛选。数据可视化,可以指明锂离子电池合成的一般条件趋势8,或为特定化学反应类型(例如,Buchwald-Hartwig偶联11)提供“备忘单cheat-sheet”。

2

中期愿景:虚拟实验室辅助

相比于在线搜索引擎,可搜索的合成数据库,为化学合成规划提供了更强大的“追溯recall”方法。人工智能可以而且应该能够提供更高层次的分析、推理和抽象。如果建立数据库,就像访问每个科学家的实验室笔记本,那么下一个目标就是访问每个科学家的大脑。


基于人工智能的实验室辅助,可以提出一种新的途径,有力促进科研创造力,这是人类化学家以前在其舒适区内操作时,从未考虑过的。在更高层面上,这可能看起来像一个专家推荐系统,建议尝试什么程序或预测,并根据新观察到的实验数据,建议下一步尝试什么。提出创造性的建议,需要某种新颖的度量标准,以及还需要有一种机制,用以量化合成途径中的相异性,也许类似于自然语言处理单词嵌入的度量标准12。


用于有机合成的逆合成工具就是案例之一,目前已经可以看到创意产生的价值,以及人工智能和专家化学家之间的合作伙伴关系13。在无机合成领域,逆合成retrosynthesis概念有很大不同,因为合成通常是一锅法,对机械加工中的差异表现出高度敏感性,并且不涉及分离中间结构,作为提供控制机会的“检查点checkpoints”。对于具有挑战性的材料制备,一种自然的方法是,与以前成功的化学反应进行类比(以牺牲创造性为代价)。为了让人工智能系统概括该策略,必须能够从现有配方的知识库中,量化目标材料和已知材料之间的合成相似性。该相似性度量的性质,涉及元素相似性或结构相似性,尽管不清楚这是否转化为合成相似性。


为了实现最高价值,人工智能必须与现有知识保持足够的一致性,以获得合理的成功机会。对意外合成结果的响应,也应采取反应性的整体观点,而不仅仅是遵循已建立的顺序实验设计技术(例如,黑箱贝叶斯优化14)调整局部优化目标周围的参数。要实现这一愿景,可能需要开发具有更强的化学、热力学和动力学先验的模型,而不是领域不可知的模型。

3

长期愿景:数字孪生与自主实验室

预测化学合成的长期愿景,类似于全数字孪生——化学合成过程的虚拟呈现,在任何物理实验之前,预测反应结果并优化条件。通过将条件/参数优化从实验转移到数字探索,这将大大减少对昂贵且耗时的物理试验需求。为扩展这一愿景,并将数字孪生与机器人实验室连接起来,将实现完全闭环的自主“自动驾驶self-driving”实验室,给定所需的目标材料,可以完全执行从开始到结束的化学合成1,2,3,15。


不过,主要挑战在于,这样数字孪生如果存在的话,需要本质上完美的预测准确性。这不可避免地预设了,训练模型的实验数据代表了一些无可争辩的“基本事实”,涉及化学反应性、合成配方与产品特性、产量、速率等严格的一一映射。但众所周知千人千面:一位化学家观察到的实验结果,往往与另一位化学家观察到的实验结果不一致。在化学合成程序中,不确定性或模糊性混淆了驱动反应性的细微模式,限制了训练模型的准确性和可推广性。


许多这样的混杂变量代表了化学合成数据集中的“未知的未知unknown unknowns”,也代表了训练完美预测合成数字孪生的根本障碍。考虑已报道的(现已撤回)无金属Suzuki偶联16案例,描述了在不使用钯催化剂的情况下,形成了高产量的C–C键,尽管付出了大量努力,但仍无法在其他实验室中复制。作者观察到的成功偶联,后来解释为存在杂质所致17,且在发表时尚不清楚。在另实施案例中,在单晶o-Nb12O29和Nb12O54合成过程中,加入2mol%铑以“帮助”靶材料18“结晶”。在结晶过程中,铑所起的作用没有给出理解或解释。为了预测这两个例子中的结果,数字孪生需要(a)意识到混合杂质的可能性,(b)认识到添加剂的缺失,将如何影响性能,即使没有关于添加剂影响的机制理解或先验证据。如果没有起始材料和设备的广泛表征或更严格消融实验(Ablation study)研究报告,这仍然是一个长期的愿景。


尽管认识到化学合成程序的重要性,但合成程序的许多其他方面也未得到充分报道:添加顺序、环境温度/湿度(不仅仅是“室温”)、手套箱或Schlenk线的使用(不仅仅是“惰性气氛”)以及购买试剂的供应商和批号。众所周知,涉及定制电化学或光化学设置的某些实验协议,很难准确复制,尽管新的商业系统正在改进标准化。根据传热/传质限制,类似的化学反应未表征方面,可以会加大规模的挑战,因为报告的产率,可能与所涉及试剂一样,都是该合成过程的函数。大多数数据库工作都是针对使用定义良好模式反应的结构化表示。然而,特定合成(尤其是无机合成)特性,可能很难在没有非结构化字段的情况下包含额外的工艺说明。


为了解决这个问题,需要改变化学界呈现和存储反应信息的方式。通常,仅报道了最终成功的合成方法;此外,是在稀疏和最小形式报道。实验失败的尝试19,可以有助于机器学习更多的合成科学,了解“秘密武器secret sauce”对于实验方法的长期可重复性,是至关重要的。高通量实验室提供了这样的机会,可以直接对实验的所有反应输入和输出进行编目——包括失败的“暗反应dark reactions”。有些报告的负面结果报道,可能会重塑科研文化,但若希望化学合成在未来更可预测,这就是必不可少的。

4

超越结构化数据:发现隐藏的机会

在已发表的化学合成论文背后,存在着丰富的隐含信息数据集,基于监督学习之外的巧妙方法,可实现数据挖掘。例如,具有长反应时间(>2周)的合成配方、不寻常的前驱体,或费力的合成路线,这意味着更直接的方法,可能不成功。在事后从理论角度,这类案件可进行更彻底的审查。这类隐含信息也可用于扩充现有反应数据集,例如,将公布的A+B→C反应,视为A+B在类似条件下不反应形成D、E、F等的证据20。


大规模数据集的另一个应用是,追溯实验过程,以检验新的理论假设。最近假设,在水相合成中,结构选择性的动力学,通过由Pourbaix自由能21计算的最大热力学驱动力来提供信息。使用文本挖掘的溶液合成数据集9,该假设可以追溯解释大量反应的经验观察合成条件。即使已存在人类科学家处理的情况,这样的验证也可以利用经验数据集。

5

展望未来

化学合成AI数字孪生的最终目标是,合成化学的长期目标,而不仅仅是实验或计算专家的责任。为了开始避免混淆的未知因素,应更广泛地采用内部重复性测试,即实验室的另一名成员,或另一个实验室,在出版前仅根据书面程序重复实验。起始原料的来源和性质是可重复性实验失败的最常见原因:供应商与内部合成、纯度/质量和购买后的再纯化。描述这些因素论文,可以用定义的数据结构代替,例如作者自己有机反应的开放反应数据库格式5。但后续合成步骤,将需要新的研发模式,以适应额外的信息,并如何最好地利用时,发展新的学习算法。Bergman和Danheiser22对可重复性实验的关注,这不仅是为了更好的科学研究,也是为了构建新的人工智能驱动工具,用以处理有机和无机材料合成。


当朝着这个长期目标努力时,计算科学家可以构建人工智能驱动的推荐引擎,帮助提出创造性和启发性的建议,以指导新的化学合成策略。这将需要算法实现对化学-结构-合成关系的更高层次理解。在本质上,这样的问题是科学的,不仅仅是软件的,而是数据(包括现有的结果和新的实验),并将在解决这些关系中发挥重要作用。现在显而易见地是,超越传统的直接监督机器学习路径,以提出化学合成配方。考虑如何手动或通过算法提出新的假设,并根据数据集对其进行评估,这是提升化学合成科学的一条互补的、极具前景的新途径。


免责声明:

本文转载自【今日新材料】,版权归原作者所有,如若侵权请联系我们进行删除!

易知微以自主研发的EasyV数字孪生可视化搭建平台为核心,结合WebGL、3D游戏引擎、GIS、BIM、CIM等技术,协同各个行业的生态伙伴,围绕着数字孪生技术、数字驾驶舱和行业应用,共同建设数字增强世界,帮助客户实现数字化管理,加速数字化转型。

易知微已经为3000+ 客户提供数字孪生可视化平台和应用,覆盖智慧楼宇、智慧园区、智慧城市、数字政府、数字乡村、智慧文旅、工业互联网等众多行业领域,包括国家电网、移动云、中交建、中铁建、融创、云上贵州、厦门象屿、天津火箭、上海电视台、金华防汛大脑、良渚古城遗址公园、李宁、浙江大学等典型案例!

收藏 0
分享
分享方式
微信

评论

全部 0条评论

10603

文章

11.88W+

人气

19

粉丝

1

关注

官方媒体

轻松设计高效搭建,减少3倍设计改稿与开发运维工作量

开始免费试用 预约演示

扫一扫关注公众号 扫一扫联系客服

©Copyrights 2016-2022 杭州易知微科技有限公司 浙ICP备2021017017号-3 浙公网安备33011002011932号

互联网信息服务业务 合字B2-20220090

400-8505-905 复制
免费试用
微信社区
易知微-数据可视化
微信扫一扫入群