- 国家市场监督管理总局
- 国家药品监督管理局
- 中国健康传媒集团主办
- 中央新闻网站
人工智能在药物合成设计中的应用(下)
计算机辅助合成设计(computer-assisted synthesis planning, 简称CASP)从上世纪60年代就已经出现。
继上篇介绍新一代基于人工智能的CASP,即智能药物合成设计的主要内容以及智能药物合成设计软件之后,下篇将总结智能药物合成设计存在的困难和对未来发展的展望。
智能药物合成设计的难点
上篇中ASKCOS的逆合成分析案例与文献报道的差异揭示了智能药物合成设计软件开发中的一大难点:数据偏见。基于文献的化学反应数据库通常只包括最终成功的反应路径和起始材料,而在设计过程中因为各种原因而被替换的路径和材料则很少会收录到数据库中,但这些信息对化学家和智能软件设计合成路线都非常有用。同时,化学反应数据库通常只包含高收益的正面数据(成功的反应),却很少记录负面数据(失败的反应),导致模型很难去预测一个反应失败的可能性。此外由于分析化学物质的高成本,不是所有的研究都会把所有副产物逐一分析,而副产物的缺失将导致化学反应数据本身的不完整。同时,有很多已经获得的但没有公开的实验数据,尤其是高通量实验数据没有被公开和分享,或者数据的记录格式不适合用计算机读取,使数据无法及时收录到公共数据库中。
智能药物合成设计的另一大难题是评估标准的统一。在模型准确率的评估中,Top-k准确率是常用的指标之一。在Top-k准确率中,标准答案在模型推荐的得分最高的k个答案中即判定为准确。然而,k值大小的选择存在着矛盾性。Top-1准确率虽然可以简化模型的评估,但它与逆合成设计的多样性相违背。在模型训练中,模型推荐了多个正确路线中的一个,但却因为和文献报道的 “标准答案” 不一致导致模型被惩罚,无疑会增大模型训练的难度。相反,如果使用太大的k,如Top-10准确率,又会夸大模型的准确性。模型预测的多样性是另一项重要的评估标准。在不同的应用场景,人们需要不同的推荐方案。在时间紧迫的情况下,一个创新性很高但不够实用的合成路线可能还不如另一个平平无奇但可行性高的路线。但是有些时候人们可能不想设计出已被文献报道过的合成路径,希望看到不一样的推荐。不同的角色对推荐方案的要求也不同。药物化学家可能更希望看到具有共同中间体的路线,从而获得多样的目标分子,但对于每个分子来说该路线都不是最佳的路线。相反对于过程化学家来说,他们更希望看到高度趋同的路线,因为他们需要在合成路线之外的地方花更多的精力(如工艺优化)。
药物开发与药物发现所期望的不同风格的合成路线设计
条件推荐系统发展的相对滞后也会对智能药物合成设计造成很大的影响。条件推荐系统的数据匮乏,主要原因之一是催化反应的数据有限。相对于起始材料广阔的化学空间,催化剂的化学空间要小很多,另外,而在药物合成路线的设计中,不必要地使用催化剂是不被允许的,因为催化剂和配体的合成和表征将额外消耗大量的时间。因此开发基于小数据集、针对催化剂的机器学习模型也非常有必要。
与其他领域的机器学习模型一样,智能药物合成设计软件的可解释性也有待加强。如果软件可以对自己的预测进行解释,那无疑可以增加人们对它的信任,可以吸引更多的人来使用这些软件。同时,模型也需要增强对不确定性的估计。必要的不确定性分析可以帮助化学家意识到什么时候可以完全信任软件的预测,而什么时候应该人工介入参与设计和评估。
展望
所有的智能药物合成设计,其最终目标都不是替代化学家,而是减轻化学家在合成设计中的认知负担,将化学家从重复性的、不需要太多智力的劳动中解放出来,使化学家们可以将精力集中在一些稀有化合物和复杂反应的研究中。即使每个化学家只将10%的工作量分给计算机去做,也将显著地节省总的时间成本。 (浙江工业大学智能制药研究院副院长 苏安)
本文仅代表作者观点,不代表本站立场。
(责任编辑:陆悦)
分享至
右键点击另存二维码!