人工智能在新药发现中的应用进展（上）

2021-10-27 15:24
作者：黄芳杨红飞朱迅
来源：药学进展

人工智能（AI）在新药研发领域发挥着至关重要的作用。目前，自然语言处理、机器学习、深度学习、知识图谱等人工智能关键技术已广泛应用于新药研发的各个环节，全球多家人工智能企业与制药企业也开启了深度合作模式，为生物医药的发展带来了新的机遇。

AI现在还处于起步阶段，起初被大规模应用于医疗影像，然后逐渐渗透到药物研发领域。近年来，越来越多的AI企业投资AI+新药研发赛道，以及海外人才的回归，给中国AI+新药研发注入一股新力量。从医疗领域全景来看，AI尚未介入很多细分领域，还需要更长的时间、更系统化的解决方案。要实现AI在医疗领域的全面落地，需要不断优化升级AI系统，提升AI的智能化和个性化。虽然AI在医疗健康领域处于起步阶段，但普及到各细分领域的潜力巨大。

AI能够实现在生物医药产业自上游到下游的投入使用，且虚拟筛选、靶点发现等部分应用场景已经能为企业带来实际收益。新冠肺炎疫情发生后，越来越多的生物医药企业和研究机构通过将其业务与AI结合来完成创新突破，在新药开发、生产运营，甚至商业战略中都有所应用。AI技术在生物医药领域的应用涉及药物研发、医学影像、辅助治疗、基因治疗等方面，药物研发在全球医疗AI市场中的份额最大，占比达到35%。靶点发现与筛选成为AI+新药发现中最为热门的应用领域，AI通过深度学习技术快速发现药物与疾病，以及疾病与基因间的连接关系，进而缩短靶点发现周期。在化合物合成方面，AI可通过模拟小分子化合物的药物特性，在较短时间内挑选出最佳模拟化合物进行合成试验，大幅提高化学合成路线设计速度，以降低操作成本。

目前，AI算法模型被诸多学者提出，随着药物研发数据的高速累积和数字化转型，以及AI技术的加速发展，决策树（DT）、随机森林（RF）和支持向量机（SVM）等机器学习模型以及深度神经网络（DNN）、卷积神经网络（CNN）和循环神经网络（FNN）等深度学习算法逐渐被应用于药物发现领域。

人工智能技术与算法模型简介

新药研发是一个漫长且高投入的过程，高通量筛选、药物基因组学等技术加速了药物开发，引领其步入大数据时代。药物发现大数据可用“十个 V”来描述，即数量（volume）、速度（velocity）、品种（variety）、准确性（veracity）、有效性（validity）、词汇（vocabulary）、场合（venue）、可视化（visualization）、波动性（volatility）以及价值（value）。基于数据库在药物发现不同阶段的应用和相关性，可将其分为6类：全面化学分子库，如Enamine、PubChem和ChEMBL；药物/类药化合物库，如DrugBank、AICD和e-Drug3D；收集药物靶标，包括基因组学和蛋白组学数据的数据库，如BindingDB、Supertarget和Ligand Expo；存储通过筛选、代谢和功效研究获得的生物学数据的数据库，如HMDB、TTD、WOMBAT和PKPB_DB；药物毒性数据库，如DrugMatrix、SIDER和LTKB基准数据集；临床数据库，如ClinicalTrials.gov、EORTC和PharmaGKB。

AI领域中的自然语言处理、机器学习、深度学习、知识图谱、计算机视觉等相关技术，有助于解决药物研发领域的痛点。这些技术、算法模型在蛋白结构及蛋白-配体相互作用预测、药物靶点发现、活性化合物筛选等新药发现环节均已得到广泛应用。

图 1：新药发现各环节常用的人工智能技术

图1：新药发现各环节常用的人工智能技术

来源：火石创造根据公开资料整理

人工智能在药物发现中的应用

药物靶点识别

靶点是新药研发的基础。当前，药物研究的竞争主要集中体现在药物靶点研究上，早期药物靶点确定对研发项目成功至关重要。

DT算法是一种常用的机器学习算法，具有条理清晰、程序严谨、定量与定性分析相结合、方法简单、易于掌握、应用性强、适用范围广等优点。RF算法是一种基于Bagging的集成学习方法，可处理分类、回归等问题，RF分类器通过将许多DT结合来提升分类的正确率。目前，DT、RF分类器可用于预测药物靶点，Costa等构建了一个基于DT的分类器，通过该分类器预测与疾病相关的基因，最后发现了多种转录因子在代谢通路和细胞外定位中的调控作用。Kumari等通过自助法采样提升了RF算法的稳定性，成功从潜在靶点中筛选出最有可能获得成功并应用于临床的靶点。Zeng等开发了deepDTnet深度学习方法，该系统嵌入了15种类型的网络，包括化学、基因组、表型和细胞网络，可以将最大的生物医学网络数据集成在一起，通过异构网络中的深度学习对已知药物进行靶标识别，以加速药物的重新利用、减少药物开发中的障碍。Madhukar等提出BANDIT（Bayesian ANalysis todetermine Drug Interaction Targets）可以准确预测药物与特定靶标的相互作用，不仅可用于识别多种多样的小分子的特定靶标，而且可用于区分同一靶标上的不同作用模式。

机器学习还可以预测肿瘤对药物的反应。Iorio等研究了全基因组基因表达、DNA 甲基化、基因拷贝数和体细胞突变数据对药物反应的影响。该研究组通过3种不同的分析框架，即方差分析、逻辑模型和机器学习算法（弹性网络回归和 RF）来定义“癌症功能事件”（cancer functional event，CFE）对药物敏感性预测的贡献。Iorio等的研究成果可帮助新药研发工作者更好地利用肿瘤细胞系来了解哪些药物将为哪些患者提供最有效的治疗。

化合物高通量筛选

化合物筛选是指通过规范化的实验手段，从大量化合物中选择对某一特定靶点具有较高活性的化合物的过程，该过程需要较长的时间和成本。AI可以通过对现有化合物数据库信息的整合和数据提取、机器学习，提取与化合物毒性、有效性相关的关键信息，从而大幅提高筛选的成功率，降低研发成本和工作量。李瑾利用化合物活性分类方法ENS-VS构建蛋白质和配体亲和力模型ComplexNet，用于预测初步筛选出的小分子与靶标蛋白的结合强度，进行精细筛选。筛选过程分3步：首先，通过集成SVM、朴素贝叶斯及DT这3种分类算法将蛋白质-配体相互作用特征和配体结构进行特征融合，解决活性化合物与非活性化合物样本数量严重不平衡的问题以及提高靶标蛋白的适用性、稳定性；其次，通过Spark大数据平台实现ENS-VS方法的并行加速，提高活性化合物筛选的执行效率；最后，基于DUD-E标准数据库针对靶标已知的活性化合物数量和是否出现新的靶标蛋白特性分别构建蛋白家族特异性模型、靶标特异性模型与通用模型。实验结果表明，ENS-VS方法能有效提高活性化合物筛选的命中率，并且可与任意分子对接程序联合使用，对提高基于结构的虚拟筛选方法的成功率具有极其重要的意义。Wu等利用生物信息学和结构基因组学的方法系统分析了新型冠状病毒（SARS-CoV-2）基因编码的蛋白，将其作为主要或潜在的药物治疗靶点，并将SARS-CoV-2基因序列与SARS-CoV和MARS-CoV等冠状病毒进行了比对，通过AI计算机虚拟筛选方法发现一些具有抗病毒、抗菌和抗炎作用的临床药物和天然产物对上述靶蛋白表现出较高的亲和力，为COVID-19的治疗提供了新的可能。SVM分类模型能够处理小数据集中的高维变量，还可以处理分类和回归问题，其分类效果强于DT与RF这2种机器学习方法。Poorinmohammad等通过建立SVM分类模型对人类免疫缺陷病毒（HIV）多肽进行分类，预测准确率达到96.76%。SVM用MATLAB编写的svm源程序可以实现SVM分类或提取，用于化合物库的虚拟筛选，有学者通过组合SVM和分子对接方法自动筛选化合物库，显著提高了活性化合物的命中率和富集因子，节省了计算资源。

细胞活力测定、细胞信号通路分析和疾病相关表型分析这3种基于细胞表型的方法常被用于筛选先导化合物。结合了AI技术的表型筛选更加高效，适用于更为复杂的病理生理过程，且能在细胞水平利用表型改变来筛选新化合物。SVM、RF或贝叶斯等机器学习技术已被成功应用于药物发现阶段的化合物筛选环节。Cyclica开发了名为“Ligand Express”的云端蛋白质组学筛选平台，该平台使用生物信息学和系统生物学技术将药物与蛋白的互动关系呈现为图像，利用AI对小分子化合物进行全面评估，帮助改善药物活性、预防药物副作用，以及发现能与小分子化合物结合的新靶点，制药科学家正在积极利用该平台探索药物发现新领域。SVM和朴素贝叶斯模型已成功应用于哺乳动物雷帕霉素靶蛋白（mTOR）抑制剂的虚拟筛选。Narain等通过AI贝叶斯神经网络推断方法分析转移性前列腺癌（PC-3）细胞蛋白质组数据，生成每个特定因子的独特概率模型，再根据功能变量子网的Burt约束度量排名找到潜在的前列腺癌生物标志物 Filamin-A和Filamin-B等。中国科学院上海生命科学研究院陈洛南教授团队利用AI克服了区分疾病样本和正常样本的分子生物标志物覆盖率低和假阳性率高的问题，确定了基于多维数据复杂疾病的网络标志物及动态网络标志物筛选方法。

预测药物的吸收、分布、代谢、排泄和毒性

预测药物的吸收、分布、代谢、排泄和毒性（ADMET）是药物设计和药物筛选中十分重要的方法。过去，药物ADMET性质研究以体外研究技术与计算机模拟等方法相结合，研究药物在机体内的动力学表现。目前市场上有数10种计算机模拟软件，包括ADMET Predicator、MOE、Discovery Studio和Shrodinger等，该类软件现已在国内外的药品监管部门、企业和科研院所得到广泛应用。为了进一步提升ADMET性质预测的准确度，已有生物科技企业探索通过DNN算法有效提取结构特征，加速药物的早期发现和筛选过程。例如晶泰科技通过应用AI高效地动态配置药物晶型，完整地预测一个小分子药物所有可能的晶型，大大缩短了晶型开发周期，更有效地挑选出合适的药物晶型，减少了研发成本。普林斯顿大学化学系的Abigail G. Doyle教授与默克公司的研究人员合作，利用RF算法对氨基化反应条件进行优化，准确预测具有多维变量的Buchwald-Hartwig偶联反应收率，结果表明，RF算法可以利用高通量实验获得的数据来预测多维化学空间中合成反应的性能和化学反应收率，该机器学习算法模型将会在药物发现领域被广泛应用。

严重药物不良反应是新药开发过程中导致失败的关键因素。王昊通过构建贝叶斯网络预测模型进行药物不良反应的预测，结果发现该模型对导致呼吸困难发生频率在1%以上药物的预测准确率可以达到86.76%，机器学习模型能够作为有效工具在药物发现阶段对其进行安全性评估。毒性是新药研发的一项重要指标，在药物发现阶段排除毒性大的化合物对于新药研发相当有利。Goh等构建了CNN毒性评估模型，将其用于预测分子的各种性质如毒性、活性和溶解性等，与多层感知机深度神经网络（MLPDNN）相比，发现CNN在活性与溶解度的预测方面表现更优异。

(责任编辑：刘思慧)

分享至

右键点击另存二维码！

返回首页>>