收藏本站 | RSS订阅纳米科技-纳米资讯-纳米新闻
你现在的位置:首页 » 生物医学 » 正文
01月13日

大数据推动创新药物研发的思考与展望

作者 : admin | 分类 : 生物医学 | 超过 9 人围观 | 已有 0 人发表了看法
原标题:大数据推动创新药物研发的思考与展望

创新药物研发从实验室到推向市场需要大量的时间和财力投入,尤其是在药物开发过程中,需要系统研究候选药物的关键生物活性,例如功效,药代动力学(Pharmacokinetics, PK)和不良反应等。随着近十年来化学合成和生物筛选技术的发展,药物研发领域产生了数百万个小分子的生物学数据,并已归纳在各种数据库中。 如能发现这些积累的数据与诸如深度学习之类的新机器学习(Machine Learning, ML)方法的合理结合方式,将会对药物研带来巨大的推动力,帮助深入理解化合物结构,预测体外,体内和临床效应,从而促进大数据时代的药物的发现和开发。

大数据推动创新药物研发的思考与展望

候选药物在早期研发阶段需要对其功效,PK性质及其潜在副作用进行一系列测试。近几十年,随着组合化学,机器人技术和高通量筛选(High-throughput screening, HTS)方面的创新,针对特定药物靶标的海量化合物筛选效率大大提升,产生了大量的先导化合物和药物候选物的数据,使得现代药物发现进入到大数据时代。根据药物发现中产生的数据,可以将其总结为“十个V”特征(Ten Vs scheme of ‘BIG DATA’):包括数据体量,数据更新速率,数据多样性,数据真实性,数据有效性,数据术语,数据生成的平台,数据可视化,数据易变性,和数据价值。

在药物发现和开发的早期阶段中,机器学习方法的应用已被证明是有价值的。例如,基于定量构效关系(Quantitative Structure–Activity Relationship,QSAR)方法的模型已被广泛用于快速预测大量新化合物的各种不同性质,如logP,溶解度,生物学活性,配体结合活性,药物功效和不良反应等。这些QSAR模型大多使用描述化学结构的分子描述符和经典的ML算法开发的,例如随机森林(Random Forest,RF),支持向量机(Support Vector Machines,SVM)和k近邻(K-nearest neighbors)等。随着数据大小和计算能力的提高,新一代人工智能(例如深度学习算法)也开始应用于药物生物活性建模。例如,礼来公司使用深度学习对公司内24个包含100万种以上化合物的历史数据集进行数据建模,对有治疗作用的候选药物进行优先排序,并排除具有潜在不良反应的化合物。通过甚至在化学合成之前就去除不合适的化合物,大大降低了药物开发的成本。

药物研发大数据

与社会网络分析等IT领域的应用相比,用于药物发现研究的数据集相对较小。当前与药物发现和开发有关的公开可用数据,根据其在药物发现和开发不同阶段的应用和相关性,可分为六类:(1)全面的化合物数据库(例如,Enamine REAL数据库,PubChem和ChEMBL);(2)专为药物/类药物化合物设计的化学数据库(例如,DrugBank ,AICD 和e-Drug3D );(3)收集药物靶标,包括基因组学和蛋白质组学数据(例如ASD,BindingDB,Supertarget和Ligand Expo);(4)存储通过筛选,代谢和功效研究获得的生物学数据数据库(例如HMDB,TTD,WOMBAT和PKPB_DB);(5)药物安全和毒性数据库(例如,DrugMatrix,SIDER和LTKB基准数据集);(6)临床数据库(例如ClinicalTrials.gov ,PharmaGKB和EORTC临床试验数据库)。尽管这些数据库的数量和规模近年来已大大扩展,但其中很大一部分数据并不是关于药物的发现和开发。

展开全文

大数据推动创新药物研发的思考与展望

大数据推动创新药物研发的思考与展望

药物大数据的特征

如前所述,大数据驱动的药物研究仍面临长期挑战。在长期开发过程中累积的大量数据,由于是从不同的来源获取的,数据呈现生物条件多样性,虽然这样的数据能给带来一定的信息,但依然要要特别注意以下问题:

首当其冲的是数据质量。随着新型测试技术的发展,药物发现数据的增长已经超出了我们使用它们的能力。然而,缺乏质量控制一直是公共数据库的普遍问题。众所周知,算法建模的研究都会遵循着“垃圾进,垃圾出”的基本原则,因此强调质量控制的重要性,特别是数据真实性和权威性尤为重要。例如,许多报道中检测同一化合物的条件不同,造成该化合物在同一性质上的大量不同数据,这些数据之间甚至互相矛盾。因此,从大数据中率先提炼有意义的数据进行整理是非常必要的。

其次,关键特征数据的缺乏。在采用大数据和ML建立模型助推药物研发时,往往要面临多类数据不足甚至缺乏的局面。如何采取一些步骤来应对这样的问题更加合理是当前数据杂而不全现状下必须要解决的一大困境。比如,可以针对单一靶标建立QSAR模型来外推补足数据;还可以利用“Read-across”方法,即选择已经检测过的分子中和目标分子类似的分子对应的数据来补足数据。但是,无论采用哪种方法都会引入预测误差,尤其是考虑到数据的不同来源,不同的标准化流程,质量控制,专家标注都会使得这个误差问题越发凸显。

综上,药物研发大数据和深度学习等人工智能方法已经在药物研发的多个阶段展现了其在创新和加速进程方面的优势,随着数据质量和基于药物知识的人工智能方法发展,我们仍对人工智能方法开辟药物研发新赛道并改变现有传统药物研发模式抱有乐观期待。

参考文献

1. Schneider, G. (2018) Automating drug discovery. Nat. Rev. Drug Discov. 17, 97–113

2. Carney, E.F. (2020) Pharmacokinetic modelling using linked organ chips. Nat. Rev. Nephrol. 16, 188–188

3. Zhu, H. (2019) Big data and artificial intelligence modeling for drug discovery. Annu. Rev. Pharm. Toxicol. 60, 573–589

4. Linlin Zhao, et al. (2020) Advancing computer-aided drug discovery (CADD) by big data and data-driven machine learning modeling. Drug Discovery Today, doi:10.1016/j.drudis.2020.07.005

本公众号所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,不希望被转载的媒体或个人可与我们联系(cbplib@163.com),我们将立即进行删除处理。所有文章仅代表作者观点,不代表本站立场。

上一篇:新冠疫苗三期临床数据解读 下一篇:关于改善口蹄疫疫苗性能的研究
640*60广告位

额 本文暂时没人评论 来添加一个吧

发表评论

必填

选填

选填

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。