人工智能作为一种新兴技术,是新药研发实现降本增效的重要方式之一,人工智能+新药研发已成为中国医药企业加速创新转型的重要驱动力。
当前,新药研发面临着成本高企、收益率下降的双重困境。新药研发具有技术难度大、投入资金多、研发风险大、回报率高和研发周期长等特征,随着疾病复杂程度的提升,新药研发难度和成本迅速增加,全球新药研发成功率呈明显下降趋势。年,艾昆纬(IQVIA)发布报告指出,新药从临床试验开始到研发结束的平均开发时间在过去10年里增加了26%,年达到12.5年;新药开发成功率不断下降,年降至11.4%。据Nature杂志报道,新药研发成本快速增长,年开发的平均成本约为26亿美元。新药投资回报率不断下滑,德勤发布的报告显示,年全球前12大制药公司的研发投资回报率仅为3.2%,较年的10.3%下降7个百分点。
人工智能的发展,为新药研发带来了新的技术手段。通过机器学习(machinelearning,ML)、深度学习(deeplearning,DL)等方式赋能药物靶点发现、化合物筛选等环节,大大提升了新药研发的效率,为降本增效提供了可能。应用AI技术,可缩短前期研发约一半时间,使新药研发的成功率从当前的12%提高到14%,每年为全球节约化合物筛选和临床试验费用约亿美元。
提升新药研发效率,对加快开发临床需求未被满足的创新药物,助力药企抢占“best-in-class”和“first-in-class”药物市场的机遇窗口期,从而提升药企全球竞争力具有重要意义。AI技术作为提升新药研发效率的重要驱动力量,正在加速对新药研发各环节的渗透。本文通过对AI技术、AI赋能新药研发应用场景,以及应用AI技术的企业主体进行总结梳理,并展望AI技术未来发展趋势,为AI+新药研发提供思路与参考。
人工智能+新药研发的应用模式
与AI在其他场景的应用类似,AI+新药研发的实现路径包括五大流程:获取目标训练数据集;AI自主学习算法建模;多次训练优化模型;测试集应用以评估模型性能;基于模型实现分子筛选、预测、分析等预定目标。算法、数据集和模型这3个要素是必不可少的部分,其中,算法和数据是实现应用的关键。
人工智能+新药研发应用算法
AI技术涵盖ML和DL,如表1所示。ML算法在新药研发领域被广泛用于分类和回归预测等方面,常见的ML算法包括决策树(decisiontree)、随机森林(randomforest)、支持向量机(supportvectormachine)、k-最近邻算法、朴素贝叶斯分类器等;DL算法包括深度神经网络(deepneuralnetwork,DNN)、卷积深度网络(convolutionalneuralnetwork,CNN)、循环神经网络(recurrentneuralnetwork,RNN)和自编码器(autoencoder,AE)等。DL算法适合处理大数据,模型也更为复杂。随着计算机性能的提高和数据量的积累,DL算法在新药研发中的应用越来越广。
DNN是最早应用于药物发现的DL算法之一,最早来源于年McCulloch等提出的计算模型。CNN是一种前馈神经网络,它在图像识别领域的表现优异。RNN是一类用于处理序列数据的神经网络,具有记忆能力,可用于处理基因和蛋白序列数据等。自编码器的目的在于重构输入数据,可生成学习模型,在药物分子生成方面应用前景广阔。DNN、CNN、RNN等DL算法模型通过定量结构性质关系(QSPR)或定量结构活性关系(QSAR)等预测药物分子的物理化学性质以及药物的吸收、分布、代谢、排泄和毒性(ADMET)。
表1:人工智能常见应用算法
来源:火石创造根据公开资料整理
面向新药研发的AI分子筛选技术入选《麻省理工学院技术评论》发布的年“全球十大突破性技术”。AI技术的发展正从传统的大样本训练向小样本学习、反馈学习的模式转变,小样本学习、零样本学习将逐渐在药物研发中应用和推广。
人工智能+新药研发应用数据
新药研发过程涉及大量的数据,包括文献资料、化合物数据、靶点数据、专利数据、临床试验数据、真实世界数据、药品审评审批数据、市场销售数据等。面对海量、多源、异质性的数据,AI技术应用已逐渐跳出以靶点和分子筛选为核心的传统新药研发模式,形成以数据为核心的研发模式。
IBM公司开发的Watson系统,通过阅读万篇文献摘要、万篇完整论文和万篇专利文献,来预测RNA结合蛋白(RNAbindingprotein,RBP)与肌萎缩侧索硬化(ALS)的相关性。英国生物科技公司BenevolentBio从全球范围内海量的学术论文、专利、临床试验结果、患者记录等数据中,提取对新药研发有用的信息;Atomwise公司利用其核心技术平台AtomNet识别重要的化学基团,如氢键、芳香度和单键碳,分析化合物的构效关系,从而用于新药发现和评估新药风险。
人工智能+新药研发的应用企业
近年来,越来越多的企业布局AI+新药研发,探索如何用AI技术实现新药研发的降本增效。据DeepPharmaIntelligence统计,截至年,全球共有家AI+新药研发企业,主要分布在美国、英国和加拿大,国内也有一些从事此类工作的企业。目前,探索AI+新药研发的企业主要有三类:一是AI药物研发创新企业,如Exscienta、BenevolentAI、Atomwise、RelayTherapeutcs、晶泰科技、燧坤智能等;二是IT巨头,如Google、微软、腾讯、阿里巴巴集团等;三是大型制药企业,如罗氏、阿斯利康、强生、葛兰素史克(GSK)等。
新药研发IT巨头倾向于利用自身的互联网基础与平台优势进行技术布局,进入方式为自主研发相关产品,开发相关领域针对性技术以赋能行业应用,业务领域不断下沉,或者通过外延并购扩张业务版图。例如腾讯进军AI+新药研发领域,发布首个AI驱动的药物发现平台“云深智药(iDrug)”;谷歌计划斥资4亿美元收购AI企业DeepMind。
图1:人工智能+新药研发企业图谱
来源:火石创造根据公开资料整理
AI+新药研发企业多以技术优势切入1个或多个应用场景,如BenevolentAI构建判断加强认知系统(judgmentaugmentedcognitionsystem,JACS)技术平台,针对包括阿尔茨海默病和罕见肿瘤在内的4个不同领域的疾病进行10多种药物的研发;晶泰科技组建RenovaAI新药研发平台,提供“计算+实验”新模式下的药物设计与固体形态研究服务。
大型药企则以自建AI研究团队、投资并购或与AI技术公司合作的方式,布局AI新药研发。辉瑞、GSK和诺华等制药公司也在内部建立了大量的AI研究团队。当前全球十大制药公司均已布局AI+新药研发,诸多大型制药公司开始与AI初创公司开展合作,例如艾伯维与AiCure、阿斯利康与BergHealth、拜耳与SensyneHealth、百时美施贵宝(BMS)与ConcertoHealthAI,以及辉瑞与IBMWatson等。
由于AI+新药研发创新公司缺少新药研发的相关数据、成熟的研发管线以及资深的药物专家,而这恰好是传统制药巨头所具备的优势。因此,大型药企和AI+新药研发技术公司联合是目前主要的业务模式。从开展合作的情况来看,随着AI+新药研发的发展,现有制药生态系统正从执行研发的传统利益攸关方逐渐转向更加多样化的技术支持伙伴关系。
我国AI+新药研发起步较晚,目前尚处在初期阶段。据火石创造统计,国内涌现了晶泰科技、深度智药、云势软件、望石智慧等一批创新企业,主要分布在北京、上海、杭州和深圳等城市。然而,国内AI+新药研发企业并不多,总数不足20家。
近年来,随着我国医药产业创新发展的加速推进,国内医药行业在AI+新药研发领域的跨界合作也在增加:医药巨头与AI+新药研发技术公司合作,例如恒瑞医药与百奥知、豪森药业与Atomwise的合作;药企与IT巨头合作,如正大天晴通过与阿里云合作获得一种全新的化合物筛选方法;CRO企业与AI+新药研发技术公司合作,如药明康德和Schrdinger合资成立了FaxianTherapeutics,将药明康德的先导化合物优化服务与Schrdinger的药物设计软件平台相结合,从而加速新药发现;药明康德和Insilico合作开发了一种ML模型,用于从头设计DDR1蛋白(一种与纤维化等疾病有关的激酶)的小分子抑制剂。
人工智能+新药研发的应用实践
目前,从全球AI+新药研发企业的应用实践来看,AI+新药研发主要是将ML、DL等AI技术,应用到前期研究、靶点发现、化合物合成、化合物筛选、新适应证发现、晶型预测、患者招募等新药研发环节。例如,数据挖掘和分析有助于药物靶标的确立,进而找到具有潜力的先导化合物,从而最大程度提升新药研发效率。与传统新药研发管线相比,基于AI和生物计算的新药研发管线平均1-2年就可以完成临床前药物研究。靶点识别、先导化合物确定、药物重定向被认为是全球AI+新药研发最具变革意义的研究领域,其中靶点发现和化合物合成是企业布局的热门方向。
前期研究
前期研究主要是基于文献分析和知识库建设,进行疾病机制、靶点、药物作用方式研究。AI的应用主要在文献数据整合分析、新药研发知识库建设、新药研发数据集建设和基准化合物库设计等方面,可以借助AI自然语音处理、知识图谱等技术实现海量信息的快速提取,从而对推动新药研发的众多知识进行聚类分析,帮助提出新的可以被验证的假说,进而加快新药研发的进程。例如深度智耀整合了数百个开放数据源,通过ML技术,结合医药研发专家知识,自动提取医药实体、关系和属性,构建医药研发知识图谱。
图2:人工智能+新药研发应用场景
来源:火石创造根据公开资料整理
药物发现
药物发现是关系新药研发成功率的关键环节,主要包括靶点选择优化、先导化合物的发现、先导化合物的筛选优化。AI在药物发现环节的应用聚焦于靶点发现、晶型预测以及候选药物分子的筛选优化。
在靶点发现和验证方面,可以利用自然语言处理技术检索分析海量文献、专利和临床试验报告的非结构化数据库,找出与疾病相关的潜在的、被忽视的通路、蛋白和机制,从而提出新的可供测试的假说,以发现新机制和新靶点。例如,InsilicoMedicine利用自主研发的AI新药靶点发现平台PandaOmics和AI分子生成和设计平台Chemistry42,获得了全球首例完全由AI驱动发现的特发性肺纤维化(IPF)疾病新靶点。
在晶型预测方面,可以利用认知计算实现高效动态配置药物晶型,预测小分子药物所有可能的晶型。例如艾伯维结合晶泰科技的晶型预测等技术,设计了一套新集成模型,能够以二维结构作为输入,预测得到分子的热力学溶解度。相比于传统药物晶型研发,采用AI技术的制药企业能更加自如地面对仿制药企业的晶型专利挑战。另外,晶型预测技术缩短了晶型开发的时间,能更加高效地挑选出合适的药物晶型,进而缩短研发周期,控制成本。
在化合物筛选和优化方面,要从数以万计的化合物分子中筛选出对特定靶标具有较高活性的化合物,往往需要较长的时间和成本,可以利用AI技术建立虚拟药物筛选模型,快速过滤“低质量”化合物,富集潜在有效分子,检索更快、覆盖范围更广,利用ML技术,从海量化合物中挑选出高潜力候选药物,从而减少研发新药的时间和成本,加速先导化合物的发现和优化,以及候选药物分子的产生。例如BenevolentBio曾借助JACS技术,标记出个或可用于治疗ALS的潜在化合物,并成功筛选出5个化合物;BergHealth则筛选了多达25万个疾病组织样本来寻找癌症早期的新生物学指标和生物标记等。
当前来看,AI药物发现在药物靶点发现和药物筛选环节的技术应用相对成熟:研究层面,现有AI解决方案在药物发现阶段更具先进性,例如阿斯利康作为AI领域的探索者,仅在年就发布了65篇AI相关的新药发现及研发的相关文献;专利层面,AI+新药研发领域的专利发布数量尽管还较少,但主要技术指向还是集中分布在药物发现的靶标确定和化合物筛选这2个技术分支。
另外,也有研究指出,使用目前的数据不太可能大幅度地提升AI药物发现的性能,因为目前的数据没有反映出药物在体内的情况,所以计算机仅利用这些数据并不能很好地做出决策,尤其是针对复杂的疾病。虽然目前有大量的描述化学特性的数据,这些数据能够使计算机生成相应的配体,但配体发现不等于药物发现。
临床前研究
临床前研究需要开展药效学、药动学和毒理学研究以及药剂学研究,主要是提前预测候选药物的ADMET在后续药物开发中起到关键作用的性质,评估候选药物通过临床试验的可能性,提高后续临床试验的成功概率。在临床前研究环节,可以利用AI技术提升ADMET性质预测的准确度,以及帮助加速识别新适应证。
在药物ADMET性质研究方面,可利用深度神经网络算法有效提取结构特征的预测方式,进一步提升ADMET性质预测的准确度。例如,云深智药采用“从头折叠”的蛋白质结构预测方法帮助解析了SRD5A2晶体结构,并通过自研AI工具“tFold”有效提升了蛋白质结构预测精度,在科研突破中发挥了核心作用。
在新适应证拓展方面,一是可以利用AI的DL能力和认知计算能力,将已上市或处于研发管线的药物与疾病进行匹配,发现新靶点,扩大药物的治疗用途;二是借助公共领域的公开大数据集资源,可以利用AI算法,选择训练推导出预测跨目标活动的ML模型,应用于药物的再利用,实现对现有药物识别新的适应证;三是利用AI技术通过模拟随机临床试验发现药物新用途。例如,燧坤智能通过ML预测,利用AI算法系统性整合疾病、靶点、药物等多个维度的海量数据,重建药物-靶点相互作用网络,实现了对药物-靶点相互作用的全景刻画,实现老药新用、在研药物二次开发、失败药物再利用、天然产物开发等。
临床试验
临床试验是新药研究中周期最长、成本最高的环节,由于患者队列选择和临床试验期间对患者的监测不力等原因,当前的药物临床试验成功率不高,通常10种进入临床试验的化合物中只有1种能进入市场。在临床试验环节,可以利用ML、自然语言处理等技术辅助临床试验设计、患者招募和临床试验数据处理。
AI辅助临床试验设计主要是利用自然语言处理技术快速处理同类研究、临床数据和监管信息,以及读取临床试验等数据。例如Trials.ai公司使用AI来优化临床试验设计,使患者更容易参加临床试验,消除不必要的临床操作负担。
AI患者招募主要利用自然语言处理、ML等技术,对不同来源的受试者信息和临床试验方案的入组/排除标准进行识别和匹配,包括医学资料的数字化、理解医学资料的内容、关联数据集和模式识别、扩大受试者范围、开发患者搜索临床试验的简化工具等。例如梅奥诊所与IBMWatson合作,基于自然语言处理技术,扫描临床试验数据库,为临床试验寻找合适的患者。在他们进行的一项试点研究中,IBMWatson临床试验匹配系统使乳腺癌试验的平均每月注册人数增加了80%;零氪科技利用大数据整合患者资料,加快了招募患者参加临床试验的速度。
AI辅助临床数据处理主要是利用云计算强大算力支快速处理临床数据分析并及时调整优化整个试验进程,提升临床试验风险控制能力。例如,太美医疗推出由病例报告表(CRF)设计平台、临床试验电子数据采集系统/数据管理系统(EDC)、数据分析技术组合构成的自动化临床数据解决方案,可以帮助药企应对临床项目中多变的需求,优化数据处理的流程。
表2:人工智能主要应用场景代表企业
来源:火石创造根据公开资料整理
人工智能+新药研发面临的挑战
AI+新药研发目前已进入快速成长期,备受业界瞩目,但其作为新兴领域,也面临着一些挑战。
一是生物学的复杂性,给数据获取和AI算法设计带来巨大挑战。药学是一个融合化学和生物学的学科,在数据层面,二者具有较大的差异性。一般来说,化学方面的数据更加稳定、可控与易于计算;生物学数据涉及受体蛋白的构象变化,平衡和偏置信号等难以定量计算。化合物与人体靶点的结合与反应过程非常复杂,目前理论认知不足,受环境影响因素很大,数据稳定性和可重复性较差。
二是当前的AI算法模型只纳入部分化学指标,生物学指标不完整。我们能够基于化学数据去设计AI算法,比如判断小分子的各种体外物理化学性质、晶型以及与靶点结合的亲和力;但是对于小分子药物在生物系统中的作用很难用一组有限的参数来定义,而化合物在体内的其他特性在模型中被降级为次要的或可忽略部分,包括其前体化合物、代谢产物、浓度依赖性效应等,这些被忽略的因素决定着药物能否到达其预期的靶点、能否起到治疗效果、以及其毒副作用是否在可以接受的范围等,这使得AI在药物发现和药效评估中面临着更大的不确定性。
三是高质量数据制约。我国的医药大数据存在数据量少、数据体系不完整、数据标准不统一、数据共享机制不完善等问题。诸如病历、随访记录目前还很难标准化、数字化;由于涉及患者隐私,临床数据的灵活运用也受到了一定限制;国内创新药研发起步较晚,原始数据积累有限;国内药品数据存储分散,存储格式不一,完整药物数据获取比较困难;新药研发领域的核心数据来源于药企,考虑到商业机密的问题,企业不愿公开核心数据。医药数据的数量和质量将成为制药行业AI发展的主要障碍。
四是高端复合型人才缺失。AI新药研发兼具信息科技和医药双重属性,需要一批既掌握AI前沿技术,又精通新药研发的复合型人才,由于我国相关领域的教学科研起步较晚,人才问题难以在短期内得到解决。据统计,全世界大约有2.2万名AI领域高端研究人员,而中国只有约名,人才需求缺口较大。
五是政策法规的制定滞后。AI存在监管体系滞后于技术发展、政府单向监管无法有效管控风险、企业缺乏合规治理有效工具和体系等问题。AI因算法不透明、难解释、跨界传播性和外溢性强,比一般的数字治理涉及范围广、难度大、问题突出。当前,AI新药研发监管体系不健全,缺少具体的评估标准、市场准入、退出机制和收费机制,难以对潜在的问题进行监督与反馈。在涉及人格权、知识产权、财产权、侵权责任认定、法律主体地位等方面的AI法律法规尚属空白。
AI在新药研发的各个阶段都发挥着重要作用,也在一定程度上助力药企降本增效,在资本驱动下,AI+新药研发正掀起创新热潮。但需强调的是,从已经开展AI+新药研发的应用实践来看,AI不是“灵丹妙药”,不能在一夜之间提高临床试验的效率,当前AI技术尚不能为提升新药研发效率带来革命性的突破。受生物系统内在的复杂性和疾病异质性特征的制约,AI分析药物在体内活性的数据非常有限,计算机不能很好地做出决策,导致准确模拟疾病的发病机制难度大,使得AI技术在提升新药的临床试验成功率方面发挥的作用还非常有限。因此,未来AI赋能新药研发相关研究和应用的进一步深化,需要传统医药研发基础科学(生物化学、生物学、生物医学等)和核心AI技术的深度结合,需要技术专家、生物学家、医学家等联合攻关。
着眼当下,为了更好地发展AI+新药研发,应对其面临的五大挑战,提升新药研发的效率从而加速我国医药创新升级,一是要突破新技术和新算法,引导技术创新以及AI技术在新药研发各个环节的深入应用;二是建立“AI+新药研发”领域复合人才跨学科培养输出机制,自主培养一批高学识、高能力的“AI+新药研发”领域的科研人员、技术工作者和应用开拓者,加快形成满足行业发展需求的人才网络;三是集中大数据力量助力攻关重大疾病致病机制、药物靶点/表型/分子分型研究,完善医药研发数据库,为拓展AI在新药研发领域的应用构建高质量数据支撑体系;四是强化创制体制设计,建立支撑保障措施,包括及时建立监管机制,明晰产权结构,注重保护新药研发中数据资产安全和知识产权。