前沿技术研究：材料科学-数字孪生愿景 | Nature Computational Science

微微菌

| 2023-05-31 15:19 1432 0 0

随着人工智能artificial intelligence（AI）的激增，合成化学有望从其进步中受益。尽管数据集中的隐藏变量和“未知的未知”，可能会阻碍实验室化学仪器的数字孪生实现，但仍有很多机会，利用人工智能和大型数据集，赋能推进合成科学。

如果提供足够的经验数据进行训练，人工智能（AI）可能会解决科学和工程中尚未解决的问题，这是一种雄心，或许可以对人类难以解决的问题，做出准确的判断。合成化学领域提供了许多这样的问题。鉴于过去一个世纪的现代化学，合成化学和化学反应经验结果的集体理解，分布在期刊、专利和实验笔记。这些机构知识的子集，目前已经处理成大规模的化学反应数据库，因此，将这些数据集与人工智能相结合，有望推动合成科学，并取代启发式和试错法合成化学设计范式。

正如决策算法代表了自动驾驶汽车的主要人工智能挑战，合成规划算法是实现自动驾驶化学合成实验室的主要瓶颈1，2，3。即使知道想要合成什么样的预定分子或材料，并且拥有实验硬件，设计一个具有反应条件完全规范的详细过程，也是一项艰巨的挑战。

近日，美国密歇根大学（University of Michigan）Nicholas David, Wenhao Sun，麻省理工学院（Massachusetts Institute of Technology）Connor W. Coley，在Nature Computational Science上发表评论文章，们思考了有机和无机化学合成的可用数据集，以及当今可用模型的能力。还绘制了极具潜力的前景道路（图1）（推动基础学科与前沿科技间的交叉碰撞，助力物质科学研究走向精准化、智能化的新范式）从而实现人工智能前沿技术赋能基础科学。

在这些训练数据集中，代表“未知的未知”的合成隐变量是特别迫切需要解决的问题之一。然而，机器学习machine learning（ML）/AI作为“实验室助手laboratory assistant”发挥着极具价值的应用，可处理实验观察，并提出新的探索方向。

The promise and pitfalls of AI for molecular and materials synthesis.

人工智能在分子和材料合成中的隐患和前景。

图1:基于布鲁姆教育目标分类法，人工智能赋予材料合成科学的机遇。（从可访问和可搜索数据（短期）的基础开始，以虚拟实验室辅助（中期）形式构建更先进的功能，作为更强大的数字孪生和自主实验室（长期）的前奏。同时注明了在每个阶段，授权科学家提出的示例问题）

短期愿景：可访问和可搜索数据

相比于传统搜索引擎方法，将现有知识收集并分类到结构化数据库中，为文献综述提供了大量的附加值。数据的数字化，使编程查询能够回答诸如“以前尝试过什么？”以及可能更重要的“以前没有尝试过什么？”

对于合成有机化学，此类数据库已经以商业产品的形式存在多年，例如SciFinder（www.scifinder.cas.org）和Reaxys（www.reaxys.com），以及最近的化学反应集合，例如Pistachio（www.nextmovesoftware.com），开放获取的USPTO数据集4，以及新兴的开放反应数据库5。其他信息（不受文献偏向于高产反应的影响）存在于防火墙电子笔记软件electronic notebooks。这些资源使实验记录以数字格式访问，通常用于识别感兴趣分子的已知合成制剂，但仅包含与研究人员最初报告数量一样多的程序细节，这可能不足以实现该领域的长期目标。

在无机材料化学中，还没有商业数据库对反应配方和合成结果进行分类。然而，自然语言处理算法，可以应用于科学数据语料库，以学习语义关系6，7，并准备大型结构化数据集。成功案例包括无机材料合成反应的文本挖掘数据集，并提供了19,488个无机固态合成配方8和35,675个基于溶液（水热和溶剂热）的合成配方9。尽管约50,000个机器分类的化学反应示例，远远多于以前编目的化学反应，但大约仅有四分之一的文本挖掘段落，是由机器学习程序完全处理的，这取决于标准化化学合成方法的语言，以及公布前的验证程序（www.syncheck.org）10。

即使没有机器学习，直方图和分布图等数据可视化，也可以对科学家有所指导，即识别参数空间或化学空间中的空白位置进行筛选。数据可视化，可以指明锂离子电池合成的一般条件趋势8，或为特定化学反应类型（例如，Buchwald-Hartwig偶联11）提供“备忘单cheat-sheet”。

中期愿景：虚拟实验室辅助

相比于在线搜索引擎，可搜索的合成数据库，为化学合成规划提供了更强大的“追溯recall”方法。人工智能可以而且应该能够提供更高层次的分析、推理和抽象。如果建立数据库，就像访问每个科学家的实验室笔记本，那么下一个目标就是访问每个科学家的大脑。

基于人工智能的实验室辅助，可以提出一种新的途径，有力促进科研创造力，这是人类化学家以前在其舒适区内操作时，从未考虑过的。在更高层面上，这可能看起来像一个专家推荐系统，建议尝试什么程序或预测，并根据新观察到的实验数据，建议下一步尝试什么。提出创造性的建议，需要某种新颖的度量标准，以及还需要有一种机制，用以量化合成途径中的相异性，也许类似于自然语言处理单词嵌入的度量标准12。

用于有机合成的逆合成工具就是案例之一，目前已经可以看到创意产生的价值，以及人工智能和专家化学家之间的合作伙伴关系13。在无机合成领域，逆合成retrosynthesis概念有很大不同，因为合成通常是一锅法，对机械加工中的差异表现出高度敏感性，并且不涉及分离中间结构，作为提供控制机会的“检查点checkpoints”。对于具有挑战性的材料制备，一种自然的方法是，与以前成功的化学反应进行类比（以牺牲创造性为代价）。为了让人工智能系统概括该策略，必须能够从现有配方的知识库中，量化目标材料和已知材料之间的合成相似性。该相似性度量的性质，涉及元素相似性或结构相似性，尽管不清楚这是否转化为合成相似性。

为了实现最高价值，人工智能必须与现有知识保持足够的一致性，以获得合理的成功机会。对意外合成结果的响应，也应采取反应性的整体观点，而不仅仅是遵循已建立的顺序实验设计技术（例如，黑箱贝叶斯优化14）调整局部优化目标周围的参数。要实现这一愿景，可能需要开发具有更强的化学、热力学和动力学先验的模型，而不是领域不可知的模型。

长期愿景：数字孪生与自主实验室

预测化学合成的长期愿景，类似于全数字孪生——化学合成过程的虚拟呈现，在任何物理实验之前，预测反应结果并优化条件。通过将条件/参数优化从实验转移到数字探索，这将大大减少对昂贵且耗时的物理试验需求。为扩展这一愿景，并将数字孪生与机器人实验室连接起来，将实现完全闭环的自主“自动驾驶self-driving”实验室，给定所需的目标材料，可以完全执行从开始到结束的化学合成1，2，3，15。

不过，主要挑战在于，这样数字孪生如果存在的话，需要本质上完美的预测准确性。这不可避免地预设了，训练模型的实验数据代表了一些无可争辩的“基本事实”，涉及化学反应性、合成配方与产品特性、产量、速率等严格的一一映射。但众所周知千人千面：一位化学家观察到的实验结果，往往与另一位化学家观察到的实验结果不一致。在化学合成程序中，不确定性或模糊性混淆了驱动反应性的细微模式，限制了训练模型的准确性和可推广性。

许多这样的混杂变量代表了化学合成数据集中的“未知的未知unknown unknowns”，也代表了训练完美预测合成数字孪生的根本障碍。考虑已报道的（现已撤回）无金属Suzuki偶联16案例，描述了在不使用钯催化剂的情况下，形成了高产量的C–C键，尽管付出了大量努力，但仍无法在其他实验室中复制。作者观察到的成功偶联，后来解释为存在杂质所致17，且在发表时尚不清楚。在另实施案例中，在单晶o-Nb12O29和Nb12O54合成过程中，加入2mol%铑以“帮助”靶材料18“结晶”。在结晶过程中，铑所起的作用没有给出理解或解释。为了预测这两个例子中的结果，数字孪生需要（a）意识到混合杂质的可能性，（b）认识到添加剂的缺失，将如何影响性能，即使没有关于添加剂影响的机制理解或先验证据。如果没有起始材料和设备的广泛表征或更严格消融实验(Ablation study)研究报告，这仍然是一个长期的愿景。

尽管认识到化学合成程序的重要性，但合成程序的许多其他方面也未得到充分报道：添加顺序、环境温度/湿度（不仅仅是“室温”）、手套箱或Schlenk线的使用（不仅仅是“惰性气氛”）以及购买试剂的供应商和批号。众所周知，涉及定制电化学或光化学设置的某些实验协议，很难准确复制，尽管新的商业系统正在改进标准化。根据传热/传质限制，类似的化学反应未表征方面，可以会加大规模的挑战，因为报告的产率，可能与所涉及试剂一样，都是该合成过程的函数。大多数数据库工作都是针对使用定义良好模式反应的结构化表示。然而，特定合成（尤其是无机合成）特性，可能很难在没有非结构化字段的情况下包含额外的工艺说明。

为了解决这个问题，需要改变化学界呈现和存储反应信息的方式。通常，仅报道了最终成功的合成方法；此外，是在稀疏和最小形式报道。实验失败的尝试19，可以有助于机器学习更多的合成科学，了解“秘密武器secret sauce”对于实验方法的长期可重复性，是至关重要的。高通量实验室提供了这样的机会，可以直接对实验的所有反应输入和输出进行编目——包括失败的“暗反应dark reactions”。有些报告的负面结果报道，可能会重塑科研文化，但若希望化学合成在未来更可预测，这就是必不可少的。

超越结构化数据：发现隐藏的机会

在已发表的化学合成论文背后，存在着丰富的隐含信息数据集，基于监督学习之外的巧妙方法，可实现数据挖掘。例如，具有长反应时间（>2周）的合成配方、不寻常的前驱体，或费力的合成路线，这意味着更直接的方法，可能不成功。在事后从理论角度，这类案件可进行更彻底的审查。这类隐含信息也可用于扩充现有反应数据集，例如，将公布的A+B→C反应，视为A+B在类似条件下不反应形成D、E、F等的证据20。

大规模数据集的另一个应用是，追溯实验过程，以检验新的理论假设。最近假设，在水相合成中，结构选择性的动力学，通过由Pourbaix自由能21计算的最大热力学驱动力来提供信息。使用文本挖掘的溶液合成数据集9，该假设可以追溯解释大量反应的经验观察合成条件。即使已存在人类科学家处理的情况，这样的验证也可以利用经验数据集。

展望未来

化学合成AI数字孪生的最终目标是，合成化学的长期目标，而不仅仅是实验或计算专家的责任。为了开始避免混淆的未知因素，应更广泛地采用内部重复性测试，即实验室的另一名成员，或另一个实验室，在出版前仅根据书面程序重复实验。起始原料的来源和性质是可重复性实验失败的最常见原因：供应商与内部合成、纯度/质量和购买后的再纯化。描述这些因素论文，可以用定义的数据结构代替，例如作者自己有机反应的开放反应数据库格式5。但后续合成步骤，将需要新的研发模式，以适应额外的信息，并如何最好地利用时，发展新的学习算法。Bergman和Danheiser22对可重复性实验的关注，这不仅是为了更好的科学研究，也是为了构建新的人工智能驱动工具，用以处理有机和无机材料合成。

当朝着这个长期目标努力时，计算科学家可以构建人工智能驱动的推荐引擎，帮助提出创造性和启发性的建议，以指导新的化学合成策略。这将需要算法实现对化学-结构-合成关系的更高层次理解。在本质上，这样的问题是科学的，不仅仅是软件的，而是数据（包括现有的结果和新的实验），并将在解决这些关系中发挥重要作用。现在显而易见地是，超越传统的直接监督机器学习路径，以提出化学合成配方。考虑如何手动或通过算法提出新的假设，并根据数据集对其进行评估，这是提升化学合成科学的一条互补的、极具前景的新途径。

免责声明：

本文转载自【今日新材料】，版权归原作者所有，如若侵权请联系我们进行删除！

易知微以自主研发的EasyV数字孪生可视化搭建平台为核心，结合WebGL、3D游戏引擎、GIS、BIM、CIM等技术，协同各个行业的生态伙伴，围绕着数字孪生技术、数字驾驶舱和行业应用，共同建设数字增强世界，帮助客户实现数字化管理，加速数字化转型。

易知微已经为3000+ 客户提供数字孪生可视化平台和应用，覆盖智慧楼宇、智慧园区、智慧城市、数字政府、数字乡村、智慧文旅、工业互联网等众多行业领域，包括国家电网、移动云、中交建、中铁建、融创、云上贵州、厦门象屿、天津火箭、上海电视台、金华防汛大脑、良渚古城遗址公园、李宁、浙江大学等典型案例！

数字孪生 产业数字化 数字孪生城市 人工智能

赞同 0

: 微信

: 链接

全部 0条评论

微微菌

10603

文章

13.15W+

人气

粉丝

关注

关注我们

扫码获取

更多数字孪生可视化干货内容

前沿技术研究：材料科学-数字孪生愿景 | Nature Computational Science

分享方式

评论

全部 0条评论

关注我们

官方媒体