深度学习(DL)的进步,特别是计算机视觉和语言处理方面的进步,重新唤起了CADD研究人员最近对神经网络的兴趣。
DL架构的出现,以及化学和基因组学数据的激增,导致了临床候选药物有意义的CADD发现。
一系列的成果表明,人工智能驱动方法的进一步推广和应用可以大大加速新型和改进药物的发现。
今天,智药局依旧为大家带来发布在Nature machine intelligence上的文章。上篇中,我们介绍了GPU如何加速药物发现;这篇内容则介绍制药业最先进的深度学习算法。
面向 CADD 的深度学习架构
从在现有或合成可行的化学库的中找到应用的判别神经网络,到最近成功的DL生成模型,激发了它们在从头药物设计中的应用,下图描述了常用的最先进的DL架构的一般方案,此外还列举了它们在CADD中的采用情况。
MLPs
多层感知器(MLPs)是完全连接的网络,具有输入、隐藏和输出层以及非线性激活函数(sigmoid、tanh、ReLU等),是DNN的基础。它们的学习能力强,参数数量相对较少,使MLP广泛且成功地应用于药物中的QSAR分析。GPU让MLP模型的成本下降,适用于对CADD产生新影响的大型化学信息学数据集。
CNNs
CNN可以说是最常用的DNN,它以分层原则为指导,并利用小的接受字段来处理输入的本地子部分。CNN一直是图像和视频处理的首选架构,同时它们还能够在生物医学文本分类方面应用。典型的CNN在3D体积(高度、宽度、通道)上运行,基于可学习的内核生成平移不变特征图,并将这些图池化以生成比例和旋转不变输出。
RNNs
计算化学家广泛依赖拓扑指纹,如扩展连通性指纹,或其他用于分子表征的描述符。现在流行的表示是SMILES(分子输入系统),用固定长度的字符串表示非常有用,因为它们可以被视为序列,并在时间网络(如递归神经网络 )中有效建模。RNN可以看作是具有记忆的马尔可夫链的扩展,这些记忆能够通过其内部状态学习长距离依赖性,从而模拟分子序列中的自回归。
VAEs
变分自编码器(VAE)是深度生成模型,正在彻底改变化学信息学,因为它们能够从观察到的数据中概率性地学习潜在空间,这些数据可以采样以产生具有微调功能特性的新分子。VAEs支持从潜伏空间上的学习分布直接采样,从而产生分子,而无需昂贵的蒙特卡罗采样。这些分子使用训练用于活动预测的支持向量机模型进一步验证,以选择性地设计具有所需特性的化合物。其他研究将VAE与分子图相结合,以产生新的分子。
GANs
最近,生成对抗网络(GAN)的地位已经凸显,成为强大而多样化的深度生成模型。GAN基于生成器和鉴别器之间的对抗博弈。生成器尝试创建新的数据点,鉴别器区分生成器生成的真实和虚假数据点,以获得完美的数据点。
在 GAN 的实证成功之后,研究人员提出了一些改进和修改,研究了系统生物学和分子药物设计交叉点的基于GAN的生成建模方法。为此,他们使用了条件GAN和Wasserstein GAN的组合,并带有梯度惩罚。GAN还与遗传算法一起被探索,以对抗模式崩溃,从而逐步探索更大的化学空间。
Transformer
近年来Transformer网络越来越广泛,研究人员受到启发,在自然语言处理中用Transformer去探索它训练序列长期依赖性的能力。利用self-attention,有研究成果执行端到端神经回归以预测药物分子和靶蛋白之间的亲和力评分。还有研究引入MolTrans来预测药物与靶标的相互作用,例如Grechishnikova使用Transformer编码器和解码器将靶标特异性分子生成作为氨基酸链与其SMILES表示之间的翻译任务。
GNNs
Deep Graph Library-LifeSci74统一了几项开创性的工作,例如引入了一个与平台无关的API,以便将GNNs轻松集成到生命科学中,特别是药物发现。图形的数学表示简洁地捕获了分子的图形结构,这意味着GNN在CADD中可能有很大的用途。研究表明,在几个基准数据集上,药物的学习图表示优于圆形指纹。其他几项研究表明,当考虑了原子距离等几何特征时,预测性能得到了改善。
强化学习
强化学习是人工智能的一个分支,它通过优化基于奖励和惩罚的政策来模拟决策。随着深度学习的渗透,深度强化学习在CADD中得到了应用,特别是在从头药物设计中,使分子具有所需的化学性质。在GNN上训练的深度强化学习进一步被证明可以提高生成的分子结构的有效性。强化学习能围绕化学特性优化奖励,从而产生有用的线索,同时将药化知识传授给基本上是黑盒的深度学习模型。
使用 GPU 和 DL 扩大虚拟筛选
随着配体库的指数级增长,已经包含数百亿个可合成分子,人们越来越有兴趣用DL来扩大传统虚拟筛选的规模。最近开发了许多基于结构的虚拟筛选方法,以有效地筛选数十亿个条目的化学文库。
例如Autodock-GPU,它允许通过并行化姿势搜索过程,在大型GPU集群—如Summit超级计算机(约27000个GPU)上,每天筛选十亿个分子。因此,这些在高性能计算中利用GPU计算的方法可能有助于从大型,不同的化学库中识别新的先导化合物,或加速其他基于结构的方法,如逆对接。但是,计算的成本也非常高。
另一方面,最近出现了基于结构的替代虚拟筛选平台,利用DL预测和分子对接来,能够从资源有限的数据库中生成活性化合物。
常见策略是实现经典计算筛选分数的深度学习仿真器,这些仿真器依赖于比传统对接更高的推理速度。与蛮力方法相比,这些基于深度学习的方法可能使学术研究和中小企业都可以进入化学空间方面发挥重要作用。
DL 促进开放科学和药物发现的民主化
DL在CADD中的整合极大地促进了药物发现和开放科学工作的全球民主化。开源深度学习软件包、使用流行的机器学习库简化了深度学习策略与药物发现管线的集成。
此外,云原生计算和面向微服务的架构中的GPU加速可以使CADD方法免费且广泛可用,有助于标准化计算模块和工具,以及架构,平台和用户界面。
使用相同算法工具得到的数据能够促进AI的应用,这些平台旨在开放和交叉兼容,并有望加速生物制药领域不同数据源的整合,从研究论文、患者记录、症状和生物医学图像,到基因、蛋白质和候选药物。
由于法律的复杂性,机构之间共享专有数据仍然是简化药物发现研究的瓶颈。联合学习允许参与机构对各自的未共享数据进行本地训练,经过训练的本地模型将聚合到中央服务器中,以实现更广泛的可访问性。因此,联合学习通过在一定程度上减轻数据交换挑战来支持民主化,尽管有效的模型聚合仍然是一个活跃的研究领域。
结论和展望
现代药物发现受益于深度学习模型和GPU并行计算的爆炸式增长。在硬件进步的推动下,DL在从虚拟筛选和QSAR分析到生成药物设计等药物发现问题方面表现出色。
特别是从头开始的药物设计一直是GPU计算进步的主要受益者之一,因为它利用了大容量和高度参数化的模型。CAS内容库中超过50% 的“化学AI”文档都是在过去 4 年中发布的。作者预计,GPU架构的日益普及,以及先进的深度学习策略和GPU加速算法的发展,将有助于使药物发现成本下降,并且全球更广泛的科学界都可以使用。
深度学习算法的另一个关键驱动因素是“大数据”的可用性。随着基因测序和高通量筛选的日益普及,研究人员可以随时获得大量原始数据。然而,对于监督学习方法至关重要的高质量标记数据的成本仍然很高。因此,数据清理和监管起着重要作用,可以单独定义此类DL应用程序的成功或失败。深入探索集中式、经过处理和标记良好的数据存储库仍然是一个开放的研究领域。
总体而言,药物发现和机器学习领域的研究人员已经有效地合作确定了CADD子问题和相应的深度学习工具。未来几年这些应用将得到微调和成熟,这种合作将进一步发展到生命科学的其他未被充分探索的领域。因此,联合学习和协作机器学习正在获得越来越多的关注,相信它们将成为民主化药物发现革命的先驱。
Three dimensional architected thermoelectric devices with high toughness and power conversion effici
An autonomous laboratory for the accelerated synthesis of novel materials
Vortex field simulation and analysis of a solar updraft power engine