随着人工智能artificial intelligence(AI)的激增,合成化学有望从其进步中受益。尽管数据集中的隐藏变量和“未知的未知”,可能会阻碍实验室化学仪器的数字孪生实现,但仍有很多机会,利用人工智能和大型数据集,赋能推进合成科学。
图1:基于布鲁姆教育目标分类法,人工智能赋予材料合成科学的机遇。(从可访问和可搜索数据(短期)的基础开始,以虚拟实验室辅助(中期)形式构建更先进的功能,作为更强大的数字孪生和自主实验室(长期)的前奏。同时注明了在每个阶段,授权科学家提出的示例问题)
1
短期愿景:可访问和可搜索数据
相比于传统搜索引擎方法,将现有知识收集并分类到结构化数据库中,为文献综述提供了大量的附加值。数据的数字化,使编程查询能够回答诸如“以前尝试过什么?”以及可能更重要的“以前没有尝试过什么?”
2
中期愿景:虚拟实验室辅助
相比于在线搜索引擎,可搜索的合成数据库,为化学合成规划提供了更强大的“追溯recall”方法。人工智能可以而且应该能够提供更高层次的分析、推理和抽象。如果建立数据库,就像访问每个科学家的实验室笔记本,那么下一个目标就是访问每个科学家的大脑。
基于人工智能的实验室辅助,可以提出一种新的途径,有力促进科研创造力,这是人类化学家以前在其舒适区内操作时,从未考虑过的。在更高层面上,这可能看起来像一个专家推荐系统,建议尝试什么程序或预测,并根据新观察到的实验数据,建议下一步尝试什么。提出创造性的建议,需要某种新颖的度量标准,以及还需要有一种机制,用以量化合成途径中的相异性,也许类似于自然语言处理单词嵌入的度量标准12。
用于有机合成的逆合成工具就是案例之一,目前已经可以看到创意产生的价值,以及人工智能和专家化学家之间的合作伙伴关系13。在无机合成领域,逆合成retrosynthesis概念有很大不同,因为合成通常是一锅法,对机械加工中的差异表现出高度敏感性,并且不涉及分离中间结构,作为提供控制机会的“检查点checkpoints”。对于具有挑战性的材料制备,一种自然的方法是,与以前成功的化学反应进行类比(以牺牲创造性为代价)。为了让人工智能系统概括该策略,必须能够从现有配方的知识库中,量化目标材料和已知材料之间的合成相似性。该相似性度量的性质,涉及元素相似性或结构相似性,尽管不清楚这是否转化为合成相似性。
为了实现最高价值,人工智能必须与现有知识保持足够的一致性,以获得合理的成功机会。对意外合成结果的响应,也应采取反应性的整体观点,而不仅仅是遵循已建立的顺序实验设计技术(例如,黑箱贝叶斯优化14)调整局部优化目标周围的参数。要实现这一愿景,可能需要开发具有更强的化学、热力学和动力学先验的模型,而不是领域不可知的模型。
3
长期愿景:数字孪生与自主实验室
预测化学合成的长期愿景,类似于全数字孪生——化学合成过程的虚拟呈现,在任何物理实验之前,预测反应结果并优化条件。通过将条件/参数优化从实验转移到数字探索,这将大大减少对昂贵且耗时的物理试验需求。为扩展这一愿景,并将数字孪生与机器人实验室连接起来,将实现完全闭环的自主“自动驾驶self-driving”实验室,给定所需的目标材料,可以完全执行从开始到结束的化学合成1,2,3,15。
不过,主要挑战在于,这样数字孪生如果存在的话,需要本质上完美的预测准确性。这不可避免地预设了,训练模型的实验数据代表了一些无可争辩的“基本事实”,涉及化学反应性、合成配方与产品特性、产量、速率等严格的一一映射。但众所周知千人千面:一位化学家观察到的实验结果,往往与另一位化学家观察到的实验结果不一致。在化学合成程序中,不确定性或模糊性混淆了驱动反应性的细微模式,限制了训练模型的准确性和可推广性。
许多这样的混杂变量代表了化学合成数据集中的“未知的未知unknown unknowns”,也代表了训练完美预测合成数字孪生的根本障碍。考虑已报道的(现已撤回)无金属Suzuki偶联16案例,描述了在不使用钯催化剂的情况下,形成了高产量的C–C键,尽管付出了大量努力,但仍无法在其他实验室中复制。作者观察到的成功偶联,后来解释为存在杂质所致17,且在发表时尚不清楚。在另实施案例中,在单晶o-Nb12O29和Nb12O54合成过程中,加入2mol%铑以“帮助”靶材料18“结晶”。在结晶过程中,铑所起的作用没有给出理解或解释。为了预测这两个例子中的结果,数字孪生需要(a)意识到混合杂质的可能性,(b)认识到添加剂的缺失,将如何影响性能,即使没有关于添加剂影响的机制理解或先验证据。如果没有起始材料和设备的广泛表征或更严格消融实验(Ablation study)研究报告,这仍然是一个长期的愿景。
尽管认识到化学合成程序的重要性,但合成程序的许多其他方面也未得到充分报道:添加顺序、环境温度/湿度(不仅仅是“室温”)、手套箱或Schlenk线的使用(不仅仅是“惰性气氛”)以及购买试剂的供应商和批号。众所周知,涉及定制电化学或光化学设置的某些实验协议,很难准确复制,尽管新的商业系统正在改进标准化。根据传热/传质限制,类似的化学反应未表征方面,可以会加大规模的挑战,因为报告的产率,可能与所涉及试剂一样,都是该合成过程的函数。大多数数据库工作都是针对使用定义良好模式反应的结构化表示。然而,特定合成(尤其是无机合成)特性,可能很难在没有非结构化字段的情况下包含额外的工艺说明。
为了解决这个问题,需要改变化学界呈现和存储反应信息的方式。通常,仅报道了最终成功的合成方法;此外,是在稀疏和最小形式报道。实验失败的尝试19,可以有助于机器学习更多的合成科学,了解“秘密武器secret sauce”对于实验方法的长期可重复性,是至关重要的。高通量实验室提供了这样的机会,可以直接对实验的所有反应输入和输出进行编目——包括失败的“暗反应dark reactions”。有些报告的负面结果报道,可能会重塑科研文化,但若希望化学合成在未来更可预测,这就是必不可少的。
4
超越结构化数据:发现隐藏的机会
在已发表的化学合成论文背后,存在着丰富的隐含信息数据集,基于监督学习之外的巧妙方法,可实现数据挖掘。例如,具有长反应时间(>2周)的合成配方、不寻常的前驱体,或费力的合成路线,这意味着更直接的方法,可能不成功。在事后从理论角度,这类案件可进行更彻底的审查。这类隐含信息也可用于扩充现有反应数据集,例如,将公布的A+B→C反应,视为A+B在类似条件下不反应形成D、E、F等的证据20。
大规模数据集的另一个应用是,追溯实验过程,以检验新的理论假设。最近假设,在水相合成中,结构选择性的动力学,通过由Pourbaix自由能21计算的最大热力学驱动力来提供信息。使用文本挖掘的溶液合成数据集9,该假设可以追溯解释大量反应的经验观察合成条件。即使已存在人类科学家处理的情况,这样的验证也可以利用经验数据集。
5
展望未来
化学合成AI数字孪生的最终目标是,合成化学的长期目标,而不仅仅是实验或计算专家的责任。为了开始避免混淆的未知因素,应更广泛地采用内部重复性测试,即实验室的另一名成员,或另一个实验室,在出版前仅根据书面程序重复实验。起始原料的来源和性质是可重复性实验失败的最常见原因:供应商与内部合成、纯度/质量和购买后的再纯化。描述这些因素论文,可以用定义的数据结构代替,例如作者自己有机反应的开放反应数据库格式5。但后续合成步骤,将需要新的研发模式,以适应额外的信息,并如何最好地利用时,发展新的学习算法。Bergman和Danheiser22对可重复性实验的关注,这不仅是为了更好的科学研究,也是为了构建新的人工智能驱动工具,用以处理有机和无机材料合成。
当朝着这个长期目标努力时,计算科学家可以构建人工智能驱动的推荐引擎,帮助提出创造性和启发性的建议,以指导新的化学合成策略。这将需要算法实现对化学-结构-合成关系的更高层次理解。在本质上,这样的问题是科学的,不仅仅是软件的,而是数据(包括现有的结果和新的实验),并将在解决这些关系中发挥重要作用。现在显而易见地是,超越传统的直接监督机器学习路径,以提出化学合成配方。考虑如何手动或通过算法提出新的假设,并根据数据集对其进行评估,这是提升化学合成科学的一条互补的、极具前景的新途径。
本文转载自【今日新材料】,版权归原作者所有,如若侵权请联系我们进行删除!
易知微以自主研发的EasyV数字孪生可视化搭建平台为核心,结合WebGL、3D游戏引擎、GIS、BIM、CIM等技术,协同各个行业的生态伙伴,围绕着数字孪生技术、数字驾驶舱和行业应用,共同建设数字增强世界,帮助客户实现数字化管理,加速数字化转型。
易知微已经为3000+ 客户提供数字孪生可视化平台和应用,覆盖智慧楼宇、智慧园区、智慧城市、数字政府、数字乡村、智慧文旅、工业互联网等众多行业领域,包括国家电网、移动云、中交建、中铁建、融创、云上贵州、厦门象屿、天津火箭、上海电视台、金华防汛大脑、良渚古城遗址公园、李宁、浙江大学等典型案例!
文章
10.26W+人气
17粉丝
1关注
©Copyrights 2016-2022 杭州易知微科技有限公司 浙ICP备2021017017号-3 浙公网安备33011002011932号
互联网信息服务业务 合字B2-20220090