药理学领域的化学空间高达 10^60,在广阔的化学空间中进行搜索,给药物设计带来了巨大的挑战。
基于片段的药物发现一直是早期药物开发的有效范例。然而,该领域面临的一个挑战是,如何设计断开的感兴趣分子片段之间的连接子(linker),生成化学上合理的候选药物分子。
在此,来自微软研究院科学智能中心(AI4Science)、洛桑联邦理工学院、牛津大学和 MIT 的研究团队,提出了一种用于分子 linker 设计的 E(3) 等变三维条件扩散模型 DiffLinker。
与以前只能连接分子片段对的方法不同,新方法可以连接任意数量的片段。此外,模型会自动确定 linker 中的原子数量及其与输入片段的连接点。
DiffLinker 在标准数据集上优于其他方法,可生成更多样化且可合成的分子。在实际应用中对其方法进行实验测试,表明它可以成功生成以靶标蛋白口袋为条件的有效 linker。
研究人员表示,术语「linker」泛指任何能够连接起始分子片段的化学物质,并不特指与所讨论任一领域相关术语的特定含义。
相关研究以《Equivariant 3D-conditional diffusion model for molecular linker design》为题,于 2024 年 4 月 11 日发布在《Nature Machine Intelligence》上。
据估计,药理学相关分子的空间超过 10^60 个结构。减小该空间大小的一个成功方法是从「片段」开始,这些小分子化合物通常不超过 20 个重(非氢)原子。这种策略称为基于片段的药物设计 (FBDD)。
给定蛋白质口袋,通过计算确定与口袋相互作用的片段是比实验筛选方法更便宜、更有效的替代方法。一旦相关片段被识别并与靶标蛋白对接,就需要将它们组合成单个连接的化合物。
机器学习方法方法可以超越可用数据并更有效地生成不同的 linkers。然而,这些方法在原子排列方面并不等变,并且只能组合片段对。迄今为止,还没有考虑靶标蛋白口袋的分子 linker 设计计算方法。
在此,研究人员解决了放置在三维 (3D) 环境中的片段连接起来的问题,并可以将设计过程调节到靶标蛋白口袋。
DiffLinker 是一种条件扩散模型,可以为一组表示为 3D 原子点云的输入片段生成分子 linker。
首先,模型生成预期 linker 的大小,然后从正态分布中采样初始 linker 原子类型和位置。接下来,使用以输入片段为条件的神经网络迭代更新连接原子类型和坐标。最终,去噪后的连接原子和输入片段原子形成一个 linker 的分子。
DiffLinker 有几个理想的属性:它与平移、旋转、反射和排列等价;它不受输入片段数量的限制,不需要有关连接原子的信息,并且生成没有预定义大小的 linker。
此外,研究人员提出了一种新的欧几里得扩散模型的 3D 调节机制,这使得 DiffLinker 成为一种多功能且最先进的生成方法,适用于各种基于结构的药物设计任务。
表 1:ZINC、CASF 和 GEOM 测试集的性能指标。(来源:论文)
研究表明,DiffLinker 在生成片段对之间的化学相关 linker 方面的性能优于以前的方法。
该方法在合成可及性和药物相似性方面取得了最先进的结果,这使得它在药物设计管道中非常有用。
此外,DiffLinker 在生成的 linker 的化学多样性方面明显优于其他方法。
研究人员进一步提出了一个更具挑战性的基准,并表明该方法能够成功 link 两个以上的片段,这是其他方法无法做到的。
研究还证明了 DiffLinker 可以以靶标蛋白口袋为条件;模型尊重周围蛋白质原子施加的几何约束,并生成在结构上与相应口袋兼容的分子。
为了证明 DiffLinker 在实际药物设计应用中的相关性,研究人员提供了三个案例研究:热休克蛋白 90 (Hsp90) 和肌苷 5'-单磷酸脱氢酶 (IMPDH) 抑制剂的基于片段的设计,以及用于提高 c-Jun 氨基末端激酶 (JNK) 选择性的支架跳跃(scaffold hopping)。
Hsp90 是一种分子 chaperone,参与多种蛋白质的折叠,包括那些参与致癌转化的蛋白质。DiffLinker 成功复现了参考文献中报告的抑制剂。重现参考抑制剂分子的所有三个 DiffLinker 样品的对接分数与参考分数相当。
IMPDH 是一个有吸引力的结核病药物靶点,在鸟嘌呤核苷酸的从头合成中发挥着重要作用。DiffLinker 复现文献报道的两个最有效的抑制剂:化合物 30 和化合物 31。尽管 DiffLinker 没有重现化合物 29,但它生成了 Tanimoto 距离相似的分子。
JNK 是丝裂原激活蛋白激酶的一个重要蛋白家族,可调节多种细胞过程,包括细胞增殖、凋亡、自噬和炎症。研究了 DiffLinker 生成一组不同支架的能力。
DiffLinker 复现了吲唑和氨基吡唑支架。此外,还确定了生成的支架的 238 个独特拓扑,这表明 DiffLinker 能够通过 linker 区域的采样来广泛探索潜在相关支架的空间。
图 5:探索化学多样性以提高 JNK 抑制剂的选择性。(来源:论文)
https://github.com/igashov/DiffLinker
Multi-agent Policy Optimization with Approximatively Synchronous Advantage Estimation
DeepFM: A Factorization-Machine based Neural Network for CTR Prediction