成功率可达100%，药物开发公司Cellarity联手英伟达，基于强化学习优化靶向分子

作者：梅菜

编辑：李宝珠

转载请联系本公众号获得授权，并标明来源

来自 Cellarity 公司和英伟达的研究团队提出了一种新颖的基于潜在强化学习的靶向分子优化方法 MOLRL，在多种任务中表现出优越或具有竞争力的性能，特别是在针对性分子生成和多参数优化方面。

从古至今，人类从未停止过与疾病的抗争，一款新药的出现可能挽救成千上万的生命，甚至还会延长人类的整体寿命。

回顾百年药物研发史，其中不乏一些有趣的故事。比如在 19 世纪初，德国药剂师的助手泽尔蒂纳用热水浸泡鸦片，再以氨水抽提，从鸦片中分离出一堆白色粉末。它将这种白色粉末喂给狗，狗吃了之后很快就晕倒在地，于是他便使用希腊梦神 Morpheus 的名字将其命名为吗啡。因此，吗啡被普遍认为是世界上首个从植物体内分离出的活性成分，也被认为是现代药物创新的起点。

随后，药学家逐渐掌握了合成化学药物的技术，德国药学家塞尔曼合成了阿司匹林的前身乙酰水杨酸。20 世纪初，公司对新药的需求推动了高通量筛选技术的发展，使科学家能够以更高的效率筛选和测试大量的化合物。21 世纪初，研究人员开始探索更精确、有效的药物治疗方法，其中靶向药物成为热点研究方向。

如今，人工智能技术的飞速发展又给药物发现带来了新的可能。AI 可助力药学家更快地验证药物靶点并优化药物结构设计，甚至直接生成具有特定物理化学性质或生物活性的分子，以大大加速药物发现工作。

在此背景下，生命科学公司 Cellarity 和英伟达的研究人员共同提出了一种新颖的基于潜在强化学习的靶向分子优化方法 MOLRL，该方法将预先在大量化学数据集上训练的强大生成模型与最先进的强化学习 (RL) 算法相结合，用于连续空间优化。研究人员通过应用该方法于药物发现相关任务，使用常见基准并与最先进方法进行比较，发现 MOLRL 在多种任务中表现出优越或具有竞争力的性能，特别是在针对性分子生成和多参数优化方面。

相关成果以「Targeted Molecular Generation With Latent Reinforcement Learning」为题发布于 ChemRxiv。

论文地址：

https://go.hyper.ai/H4JhR

关注公众号，后台回复「靶向分子优化」获取完整 PDF

开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读，并提供海量数据集与工具：

https://github.com/hyperai/awesome-ai4s

路线选择：直接修改分子 vs. 在潜在空间中操作

药物研发是一个十分复杂的过程——化合物除了具备生物活性外，还应具有多个其他特性，才能被推选为临床候选药物。而那些被识别为具有治疗活性的化合物，通常称为「候选化合物」，其结构也不是一成不变，而是会在一个漫长的迭代周期中进行修改，以解决诸如溶解度不足和活性不够等问题。

在迭代过程中，药学家通常会基于他们的直觉或通过基于反应的库进行枚举，对初始分子进行转化以设计类似物。然而，鉴于化学空间的庞大规模，即使是针对单个分子，设计也变得极为困难，需要对整个化学空间进行详尽评估。用于靶向分子生成的计算方法可以高效地探索化学空间，并为化学家们推荐那些以前未曾探索过的结构。

当前，靶向分子生成和优化方法可以分为两大类：第一类方法是直接在分子结构上进行操作，以确定能改善目标特性的结构修饰；第二类方法是在生成模型的潜在空间中操作，间接通过其潜在表示来修改分子结构。

方法一可以进行插入、删除原子或化学键的结构修改，目前业界已经取得了不少进展。

据报道，去年 11 月，韩国科学技术院 (KAIST) Yoonsu Park 教授带领的团队开发出一种创新的单原子编辑技术。该技术通过引入光催化剂，成功实现了在常温常压下对药物分子进行单原子编辑。团队开发的「分子剪刀」技术能够精准地切割并连接五元环结构，将氧原子替换为氮原子，改变分子性质并提升药物的药效。相关研究成果以「Photocatalytic furan-to-pyrrole conversion」为题发表于 Science。

然而，随便对分子「动手术」并不是一件容易的事情。一方面，结构修改可能会违反化学规则，从而导致无效的分子结构。另一方面，由于分子结构本质上是离散的，而添加或删除化学键都涉及离散的操作，这种离散性会导致优化过程的梯度不连续，从而难以有效地应用基于梯度的方法。

与方法一相比，方法二将优化任务转化为一个连续优化问题，利用生成模型的潜在空间，并采用诸如梯度下降等连续空间优化算法。尽管如此，化学有效性仍然是一个挑战，因为不能保证潜在空间中的某一点对应一个有效的分子。然而，通过使用新颖的架构以及训练修改，生成模型在提高有效性和潜在空间的连续性方面取得了显著进展。

而在 Cellarity 公司和英伟达的研究中，研究人员提出的 MOLRL 通过使用近端策略优化 (PPO) 方法，在预训练生成模型的潜在空间中进行优化。

基于潜在强化学习的靶向分子优化方法 MOLRL

MOLRL 框架如何运作？

MOLRL 框架分为潜在空间生成模型和强化学习 (RL) 代理两部分。

生成模型是一个预训练的编码器 (Encoder)-解码器 (Decoder) 模型，其潜在空间编码了 RL 代理操作的化学空间。RL 代理使用 PPO 方法进行训练，以在潜在空间中导航；奖励函数为代理提供反馈，帮助其学习如何在空间中导航，识别具有所需属性的分子。

如下图：输入分子的潜在表示「z」通过从策略网络输出中抽取的动作「a」进行扰动。扰动后的潜在向量「z′」被解码成分子，并通过奖励函数进行评分。状态「z」、动作「a」和奖励「R」被收集用于更新策略网络。

MOLRL 方法概览

该框架与编码器和解码器的架构无关，然而，潜在空间的特性将极大地影响优化性能。因此研究人员评估了 MOLRL 在两种不同编码器-解码器架构上的性能，分别是变分自编码器 (VAE) 和基于互信息机器学习训练的自编码器 (MolMIM)。

强化学习 (RL) 代理负责在潜在空间中导航，以识别具有所需分子属性的分子。研究人员使用了 PPO，即近端策略优化算法来训练 RL 代理，PPO 算法通过优化策略来最大化长期累积奖励，从而引导代理在潜在空间中找到优化路径。奖励函数是 MOLRL 框架的核心，它根据分子的目标属性（如药物相似性、合成可达性、靶向结合等）对代理进行反馈。

MOLRL 框架性能表现如何？

为了评估 MOLRL 框架的性能，研究人员设计了多目标优化任务，并与当前的最先进优化方法进行比较。

具体来说，研究人员应用 MOLRL 生成具有生物活性的分子，针对两个靶点，同时优化药物相似性 (QED) 和合成可及性 (SA) 。所选的生物靶点是与阿尔茨海默病相关的两种激酶——GSK3β 和 JNK3。根据 Jin 等人的评估策略，研究人员记录了优化过程中生成的前 5,000 个奖励值最高的分子，并计算以下 3 个指标：成功率 (success rate)；新颖性 (novelty)；多样性 (diversity)。

下表展示了在 VAE-CYC 潜在空间中训练的 MOLRL 和在 MolMIM 空间中训练的 MOLRL 的性能，以及文献中报道的当前最先进分子优化方法的性能比较。

针对两个生物靶点、生物活性、QED和SA的多参数优化

如表中数据所示，FaST 通过使用强化学习 (RL) 结合分子片段来构建分子图，在所有比较方法中表现出更高的成功率。FaST 和 RationaleRL 在多样性和新颖性方面具有优势，这两种方法都利用了先验知识。REINVENT 和 MOLRL 都从随机分子出发，这些分子可能远离 ML 分类器的训练范围，尽管如此，MOLRL 仍然实现了与 RationaleRL 相当的新颖性，并达到了最高的成功率。

使用先验知识作为起点可以带来一定优势，但也可能限制新颖性以及算法发现新型骨架的能力。此外，当没有可用的先验知识时，例如在研究未探索的目标时，这类方法的适用性会受到限制。

除了多目标优化任务，在药物发现中，一个常见的做法是确定一个已知能与某一靶点或靶点类别结合的化学骨架，并以此作为化学设计和优化的起点。因此，论文还进一步验证了 MOLRL 在保留指定分子骨架的同时优化多目标属性的能力。如下表所示，在优化含氨基嘧啶骨架的分子时，MOLRL 达到了 100% 的成功率。

不同 σ 值下模型在成功率、唯一性和多样性方面的比较

总而言之，与现有方法相比，MOLRL 在多种任务中表现出优越或具有竞争力的性能，特别是在针对性分子生成和多参数优化方面。

AI 助力药物发现效率提升的关键一步

开发一款新药究竟需要花费多少资源？医药行业有个著名的「双十定律」，即新药从发现到上市需要耗时 10 年，耗资 10 亿美元。根据德勤最新发布的报告，如果计入失败临床成本，全球 TOP 药企将一款新药成功推向市场的平均成本，已从 2010 年的 11.88 亿美元增加到 2022 年的 22.84 亿美元。

药物发现的关键一步是发现一批用于计算研究或合成、表征的候选分子，这是一项艰巨的任务，因为潜在分子的化学空间是巨大的，需要极高的试错成本。如今，人工智能和机器学习则能有效的提高这一步骤的效率。

2023 年 10 月 31 日，诺华生物医学研究所和微软研究院科学智能中心的研究人员合作，在 Nature Communications 发表了题为「Extracting medicinal chemistry intuition via preference machine learning」的研究论文。

研究人员让 35 名医学化学家各自从 5,000 对分子中选择自己更偏向的分子，再用他们的回答做成排序游戏来训练一个机器学习模型，随后让这个模型给分子打分。这个分数基本不受该领域之前作为特征的其他性质的影响，因为这来自行业内多年的知识积累。

该模型能够部分重现职业化学家在工作中积累的集体知识，这类知识通常被称为「化学直觉 (chemistry intuition)」，从而让今后的药物研发更高效。

2024 年 3 月，AI 制药头部企业英矽智能在 Nature Biotechnology 发表科研论文，详细介绍了利用人工智能平台发现治疗 IPF 的新颖靶点 TNIK，以及随后利用生成化学平台设计 ISM001-055 分子的全过程。

ISM001-055 是一款全球首创的小分子抑制剂，靶向 TNIK (Traf2/NCK 相互作用激酶）用于特发性肺纤维化 (IPF) 治疗。英矽智能表示，生成式 AI 在研发早期可以极大提高研发效率、降低研发成本、提高研发成功率。以抗特发性肺纤维化的分子为例，从早期的靶点发现一直到临床前候选化合物的确定，其只用了 18 个月的时间，投入 260 万美元的研发费用。

来自 fortune business insights 的研究报告显示，全球人工智能在药物发现的市场规模在 2022 年为 30 亿美元，预计将从 2023 年的 35.4 亿美元增长到 2030 年的 79.4 亿美元，复合年增长率为 12.2%。未来，AI 技术在推动药物行业变革方面具有巨大的潜力。

参考资料：
1.https://mp.weixin.qq.com/s/OL7TJQcUE-ubhUDyc7GBzQ
2.https://www.thepaper.cn/newsDetail_forward_29097303
3.https://news.bioon.com/article/6127e7234091.html
4.https://bydrug.pharmcube.com/news/detail/49720140c1e9d57ac3c7cfe20ef7f8be
5.https://mp.weixin.qq.com/s/UGAXWMhPlSg2hFnI5ghr1w

往期推荐

戳“阅读原文”，免费获取海量数据集资源！

（文：HyperAI超神经）