1、摘要
研发高活性、高选择性小分子抑制剂是药物发现的核心难题。醛脱氢酶3A1(ALDH3A1)兼具解毒功能,与癌症、神经退行性疾病相关,是潜力巨大但研究不足的药物靶点。本研究建立人工智能+化学反应驱动的苗头-先导化合物优化体系,融合连续分子衍生、药效团对接与预测模型,实现规模化构效关系(SAR)研究。研究采用Enamine砌块完成两轮分子衍生,得到约25万个虚拟化合物;经深度学习与多级对接筛选,选定150个化合物合成。优化后,NCATS-SM0707生化IC50由1.41μM降至1nM,活性提升约1000倍;NCATS-SM0708细胞IC50达4nM。该方法可在分子多位点拓展化学反应。结果表明,基于化学反应衍生与AI筛选的综合构效关系(CSAR)策略,可规模化、通用化加速苗头化合物优化,充分挖掘可合成化学空间。

2、引言
发掘并优化具备治疗潜力的小分子化合物,是药物发现工作的核心内容,这一过程通常需要多轮设计 — 合成—测试循环。如今,高通量筛选、基于结构的建模技术以及机器学习算法虽然提升了早期苗头化合物的筛选效率,但要将初步得到的苗头化合物进一步开发为活性强、选择性高、具备药理成药价值的先导化合物,依旧需要投入大量的时间与科研资源,对于化学可开发性较差的靶点而言更是如此。传统药物研发体系存在明显短板:其构效关系研究仅局限于数量有限的化学砌块,也难以获取化学多样性丰富且合成路线可行的类似化合物。随着治疗靶点的结构日趋复杂、对化合物选择性的要求不断提升,行业迫切需要可规模化的研究策略。这类策略需能够在系统探索构效关系的同时,兼顾化合物合成实用性、生物活性、类药性质,并助力知识产权布局。
醛脱氢酶3A1(ALDH3A1)正是这样一个具备药理研究价值的靶点。该蛋白属于依赖烟酰胺腺嘌呤二核苷酸(磷酸)[NAD (P)⁺]的醛脱氢酶家族,主要负责降解脂质来源的醛类毒素,同时参与细胞氧化还原调控、肿瘤耐药以及肿瘤免疫逃逸过程。ALDH3A1在肺癌、乳腺癌、头颈部肿瘤等实体肿瘤中呈高表达状态,与肿瘤进展以及患者不良临床预后密切相关。在过去二十年间,随着其生物学功能被不断解析,多款ALDH3A1抑制剂相继被报道,本研究团队此前也筛选得到抑制剂MI 192(编号NCGC00480746)。基于我们在ALDH3A1研究领域积累的经验,该靶点成为验证综合构效关系(CSAR)研究策略的理想模型。
逐步优化取代基、Topliss决策树设计等传统药物化学手段,至今仍是先导化合物优化工作的基础。这类方法依托已有的构效关系与合成可行性,在有限的化学空间内,对类似化合物开展迭代合成与活性测试。经典的Topliss决策树策略会按照固定顺序系统性地探索取代基:先对R1位点进行修饰,再逐步拓展至R2等相邻位点。而依托化合物库筛选类似物的研究模式,还会受到商用化合物品类的限制,进一步压缩构效关系的研究范围。这类研究方法虽逻辑严谨、实用性强,但本身存在规模受限、研发周期漫长的问题,往往无法充分探索广袤的化学空间,也难以发掘品质优异、结构新颖且选择性良好的化学分子。
为突破上述限制,基于化学反应的分子衍生技术与机器学习算法,提供了具备实用性与规模化能力的解决方案。借助经过筛选的化学砌块与经验证的反应模板,研究人员可以依托已知分子骨架,批量生成合成路线可行的类似化合物。尤为重要的是,这类技术能够探索人工实验难以触及的化学空间,还可通过数据驱动的筛选方式,挖掘不易被发现的构效关系规律。将这类技术与分子对接、依托实验生物活性数据训练的预测模型相结合,能够实现大规模的假设导向药物设计,减少人为筛选带来的偏差,让构效关系研究流程变得更加贴合实际、效率更高。
目前,REINVENT、MegaSyn、AutoSynRoute等多款平台,代表了分子生成设计与合成路线规划领域的前沿进展。REINVENT运用强化学习算法,定向生成具备目标活性特征的类似化合物;MegaSyn引入合成可行性评分体系,推荐具备合成价值的化合物;AutoSynRoute则支持逆合成路线分析与候选分子优先级排序。尽管这些平台在骨架跃迁、创新分子设计方面表现出色,但它们主要面向药物研发早期探索阶段,并非针对特定分子骨架的构效关系拓展进行优化。其通用化的反应规则,也缺少精细的化学场景适配能力。对于ALDH3A1这类靶点而言,分子取代基的微小改动,都会造成化合物活性、亚型选择性出现剧烈变化,现有平台难以针对该类靶点完成精细化的骨架修饰优化。
为填补这一技术空白,我们开发了一套锚定分子骨架、基于化学反应的分子衍生策略。该策略延续了传统取代基优化的逻辑(例如依次修饰R1、R2位点),同时借助反应模板,通过计算机技术实现规模化拓展。我们选用Enamine数据库中超过一百万种化学砌块,搭配两套成熟的反应模板,对苗头化合物骨架的两个区域进行修饰,最终围绕该苗头分子构建出包含约25万个可合成类似物的虚拟化合物库。除本研究展示的两轮分子衍生实验外,该模块化框架具备极强的可拓展性:研究人员可在分子的不同位点引入多样化的化学反应,全面探索并优化先导化合物的分子骨架。
我们结合ALDH3A1蛋白的结合特征,对该虚拟化合物库开展基于药效团的分子对接分析,同时采用基于实验生化数据训练的深度学习共识架构(DLCA)模型完成化合物筛选。经过多轮优先级排序,我们快速筛选出合成难度低、活性预测值优异、构效特征明确的候选化合物。
经过两轮分子衍生与合成实验,第一轮得到72个类似化合物,第二轮得到78个类似化合物。该研究流程最终筛选出一款先导化合物,其生化抑制活性达到1nM,细胞水平抑制活性为14nM,同时对ALDH各亚型表现出显著的选择性,我们也完成了该化合物初步的体外吸收、分布、代谢与排泄(ADME)表征工作。
在本研究中,我们通过两套由化学反应定义的药物化学修饰方向,验证了这套研究流程的有效性。从更广的应用层面来看,该技术框架并不局限于本文展示的两类化学反应。若需要开展更全面的药物化学探索,还可拓展引入连接链修饰、分子骨架多样化改造等反应方案,并结合多轮迭代设计循环推进研究。
本研究结果进一步证实:这套分子生成流程融合了传统药物化学的研究经验与规模化计算机技术,能够快速开发出强效抑制剂。即便是对于缺少成熟工具化合物、构效关系尚不明确的靶点,该流程也能高效推进先导化合物的研发工作。
3、研究结果
依托药效团开展虚拟筛选,获取苗头化合物
我们以ALDH3A1为模式蛋白,采用结构导向虚拟筛选策略,筛选适用于系统性构效关系拓展研究的苗头化合物。我们基于ALDH3A1晶体结构(蛋白质数据库编号:4H80)构建药效团模型,提取底物结合通道内的关键相互作用特征,包括氢键受体、疏水结构单元,以及位于辅因子结合位点附近的芳香核心结构。
我们将该药效团模型与分子对接技术联用,对美国国家转化科学促进中心(NCATS)内部收藏的、约10000个化学结构多样的化合物文库进行筛选,最终得到1692个结合模式符合要求的候选分子。综合药效团匹配程度、对接得分以及结构多样性三大指标,我们从上述分子中优先选出250个化合物,开展ALDH3A1生化活性实验。

本次生化实验以苯甲醛为底物、烟酰胺腺嘌呤二核苷酸(磷酸)为辅因子,搭配黄递酶与刃天青显色体系,实验体系采用1536孔微孔板(详细方案见实验部分)。我们采用梯度浓度模式对化合物进行活性测试,结果显示:250个待测化合物中有47个表现出抑制活性,整体命中率为18.8%。在这47个活性化合物中,有34个化合物的半数抑制浓度IC50低于30微摩尔每升,对应有效命中率为13.6%(详见补充信息表S1、图2)。
为确认这类化合物的活性并非偶然,我们在NCATS内部总规模约15万个化合物的库中,检索活性最优化合物的结构类似物——这类同源分子通常被认为具备相近的生物活性。我们共计找到232个类似化合物,并采用相同的生化实验体系进行测试,最终新增65个活性化合物IC50<30微摩尔每升,命中率达到28%(详见补充信息表S2)。
筛选用于构效关系拓展的分子骨架
我们从筛选得到的5类化学结构中,选定含噻唑环的A骨架,开展系统性的构效关系拓展研究。选择该骨架的依据为:其活性稳定维持在中等微摩尔级别(见表1),初步体外ADME性质表现良好,与药效团模型匹配度高,同时分子上存在多个便于开展构效修饰的活性位点。从药物化学角度分析,该分子的平面芳香核心结构搭配均衡的理化性质,使其成为类似物设计与活性优化的理想起点。
此外,我们在化合物库中检索到48个A骨架的类似物。其中43个化合物具备共同的结构特征:在R1、R2位点分别带有N-取代哌嗪结构与酰胺官能团。这一组化合物包含全部23个具备ALDH3A1抑制活性的类似物,其半数抑制浓度范围为0.7微摩尔每升至28微摩尔每升,最大抑制效率区间为33%至92%。

针对R2位点的酰胺取代基开展初步构效分析后发现:各类取代苄胺结构的活性,远优于杂芳基胺衍生物与脂肪胺衍生物;仲酰胺结构相比伯酰胺结构,活性会出现下降。而化合物库中,R1位点的可修饰类似物数量极少,仅存在单取代N-苯基哌嗪类化合物,也无法总结出有效的构效规律。综合以上特征,该骨架成为开展基于化学反应的分子衍生、开发先导化合物的优质研究对象。
综合构效关系第一阶段:针对R1位点开展基于化学反应的分子衍生
第一轮构效关系研究,聚焦于含噻唑环A骨架的R1位点,也就是图1中标注为紫色的N-取代哌嗪结构区域。结合分子对接构象与定量构效关系预测结果,我们决定保留哌嗪母核结构——对比其他潜在替换基团,哌嗪结构能够带来最优的对接评分。从设计层面来讲,R1位点是合成难度较低的修饰位点,在不改变分子核心骨架、不破坏关键药效团相互作用的前提下,能够充分拓展化学空间。
为围绕N-取代哌嗪结构探索广阔且合成可行的化学空间,我们采用计算机模拟、基于化学反应的分子衍生策略。具体实验方案为:以2-氯噻唑中间体为底物(见反应路线1),结合Enamine数据库中超过一百万种商用N-取代哌嗪化学砌块,开展虚拟亲核芳香取代反应。本次分子衍生仅对哌嗪氮原子上的取代基进行改造,最终生成9336个结构各异的类似化合物。我们依托初筛实验数据训练定量构效关系模型,完成化合物活性预测,随后使用MOE软件开展基于药效团的分子对接,验证化合物与靶点的关键结合特征。
定量构效关系模型性能与化合物筛选
为筛选出适合合成的化合物,我们基于ALDH3A1抑制剂初筛的生化实验数据,构建了定量构效关系回归模型。该模型采用深度学习共识架构(DLCA)搭建。已有研究证实,该架构的性能与当下主流的深度学习算法持平,甚至部分场景下表现更优。经过五折外部交叉验证,该模型的决定系数R2达到0.51,具备足够的预测能力,可指导研究早期的化合物筛选工作。
作为对照实验,我们分别依托RDKit理化描述符、Morgan指纹、Avalon指纹、AtomPair指纹,以及上述特征的组合数据集,构建随机森林模型。多轮五折交叉验证结果显示,这类随机森林模型的平均性能,均低于深度学习共识架构(DLCA)模型(详见补充信息表S3)。
我们使用该定量构效关系模型,对9336个经反应衍生得到的类似物进行活性打分,并进一步开展基于药效团的分子对接,评估化合物与ALDH3A1活性位点的匹配度,以及关键结合特征的保留情况。结合定量构效关系回归模型评分、分子对接得分、结合构象质量三大指标,我们初步筛选出500个化合物,进入最终评审环节。药物化学家团队对这部分化合物逐一评估,确认其合成可行性与构效关系研究价值。经过层层筛选,我们最终选定80种化学砌块,通过亲核芳香取代反应,在R1位点完成结构修饰。
R1位点衍生物的合成与生物活性
我们对选定的80种N-取代哌嗪砌块开展合成实验,最终成功得到72个类似化合物,整体合成成功率约为90%。我们对所有产物开展ALDH3A1抑制活性检测,结果显示:70个化合物(占比97%)的半数抑制浓度低于30μM,且最大抑制效率大于30%(详见补充信息表S4)。这类化合物的活性跨度较大,绝大多数化合物的半数抑制浓度处于0.23至20μM区间(详见补充信息表S4)。

值得关注的是,有48个类似化合物的活性,优于最初的苗头化合物(IC50=1.41μM,抑制效率74%)。这一结果充分证明,该分子骨架具备极大的构效优化潜力(见图4A)。
活性最优的一批类似物,均带有不同取代模式的苯基哌嗪结构,且苯环上更倾向于连接小体积取代基(见表2)。同时,取代吡啶基哌嗪类化合物,在生化实验中也表现出良好活性(化合物11)。纯苯基取代的类似物水溶性极差,而在分子中引入吡啶结构后,化合物的水溶性得到显著提升,且活性并未出现下降。
接下来,我们采用1536孔板ALDEFLUOR实验体系,验证化合物在细胞环境中的抑制效果。简单来说,ALDEFLUOR实验的底物BAAA会被细胞内的各类醛脱氢酶催化,生成无法穿透细胞膜的荧光产物,以此标记存在醛脱氢酶活性的细胞。BAAA可被多种醛脱氢酶亚型催化,而ALDH3A1对该底物的催化能力相对最弱。基于这一特性,我们选用ALDH3A1优势表达的OE19细胞系,评估抑制剂的细胞水平活性(详见实验部分)。
我们对全部72个合成类似物开展细胞活性测试,结果显示:53个化合物(占比73%)表现出细胞抑制活性,其细胞水平IC50低于10μM,且最大抑制效率大于50%(见图4B、补充信息表S4)。其中,5号化合物生化抑制活性优异IC50=229nM),同时细胞水平活性也表现突出(IC50=3.13μM),因此被选定为下一步优化的起始分子(见图4C)。
上述实验结果表明,绝大部分类似化合物都能够有效进入细胞并发挥作用。这一结论印证了该系列分子骨架的研发潜力,也为后续先导化合物的深度优化奠定了坚实基础。
综合构效关系第二阶段:针对R2位点开展基于化学反应的分子衍生
在R1位点的构效研究取得成功后,我们以活性最优的5号化合物为基础,进一步对其R2位点进行修饰,全面提升分子整体活性。我们沿用计算机模拟化学反应衍生策略(见反应路线2),通过虚拟酰胺偶联反应,结合商用胺类化学砌块,共计生成约25万个类似化合物。
我们结合R1位点修饰实验得到的最新生化数据,重新训练定量构效关系模型。新模型经过五折外部交叉验证,决定系数R2达到0.74,整体性能保持稳定,同时针对新衍生化学空间内的化合物,具备更精准的排序能力。
在总计251225个衍生类似物中,我们首先依托定量构效关系得分,初步筛选出40664个化合物。随后,我们对这部分化合物开展基于药效团的分子对接,评估其与ALDH3A1结合口袋的匹配程度,并根据对接得分、结合构象对齐情况完成筛选。结合定量构效关系模型排名、对接得分、结合构象质量,我们最终筛选出排名前700的类似化合物。
我们与药物化学家团队协作,综合考量化合物预测活性、化学砌块采购成本、供货周期等因素,选定85个具备研发潜力的分子开展合成。最终,我们采用标准酰胺偶联实验方案,成功合成78个类似化合物(见反应路线2)。
表2汇总了R1位点哌嗪取代结构中,生化实验活性最优的一批类似物,以及其细胞水平活性、理化与药代相关参数。
我们对全部78个新合成的类似物,同步开展ALDH3A1生化活性与细胞水平活性检测。生化实验结果显示:72个化合物(占比92%)的半数抑制浓度低于20μM,其中8个化合物的活性达到10nM以下(详见补充信息表S5)。我们以R1位点最优的5号化合物(IC50=229nM)作为参照,共有43个R2位点衍生物的活性更优,再次证明该分子骨架具备持续优化的潜力(见图5A)。
细胞活性实验结果表明:57个化合物的细胞水平半数抑制浓度低于10μM,多个化合物达到亚微摩尔级别活性(详见补充信息表S5)。活性分布数据证实,针对R2位点开展的分子衍生,相比R1位点,大幅提升了化合物的细胞抑制活性;同时,化合物的生化活性与细胞活性整体呈现良好的相关性(见图5B)。
图5C展示了两轮综合构效关系优化实验中,所有化合物生化活性与细胞活性的分布情况。如图所示,第一轮(R1位点)衍生物(蓝色数据点)集中在中等生化活性区间,细胞活性提升幅度有限;第二轮(R2位点)衍生物(红色数据点)的活性分布范围更广,诞生了多个纳摩尔级别的强效抑制剂。这一变化趋势,直观体现了聚焦R2位点开展构效探索、同步优化预测模型带来的增益。
综合两项实验的活性数据,13号化合物(NCATS-SM0707)与14号化合物(NCATS-SM0708)成为综合表现最优异的候选抑制剂(见表3、图5D、图5E)。两个化合物在酶水平实验中,半数抑制浓度分别达到1.12nM、31.63nM;在ALDEFLUOR细胞实验中,半数抑制浓度分别为13.62nM、3.84nM。

候选抑制剂的亚型选择性与结合特征研究
我们选取一系列同源性较高的ALDH亚型(ALDH1A1、ALDH1A2、ALDH1A3、ALDH2,以及与ALDH3A1序列同源性约70%的ALDH3A2),通过生化实验评估两款先导化合物的亚型选择性。行业通用标准定义:在同一家族靶点中,选择性倍数大于30倍,即为高选择性。
实验结果显示:NCATS-SM0707对ALDH1A1、ALDH1A2、ALDH2、ALDH3A2均无明显抑制活性或活性极弱,仅对ALDH1A3表现出中等抑制效果(IC50=3.16μM每升,最大抑制效率=-60%)。对比其对ALDH3A1的活性(IC50=1.12nM),选择性倍数超过2816倍。
在多种ALDH亚型优势表达的细胞系中开展测试后发现:NCATS-SM0707在OV90(表达ALDH1A1)、AN3CA(表达ALDH1A2)、PEO1(表达ALDH1A3)细胞系中,均无明显活性(见图6A)。
NCATS-SM0708的生物活性特征与前者相近:对ALDH1A1、ALDH1A2、ALDH2、ALDH3A2活性微弱,仅中等抑制ALDH1A3(IC50=1.12μM,最大抑制效率=-62%),相比其对ALDH3A1的活性(31.6nM),选择性倍数超过25倍。
在细胞水平测试中,NCATS-SM0708在AN3CA(ALDH1A2)细胞系中完全失活;在OV90(ALDH1A1,IC50)=0.562μM,抑制效率=-56%)、PEO1(ALDH1A3,IC50=0.891μM,抑制效率=-57%)细胞系中表现出中等活性。对比其在OE19细胞(ALDH3A1,3.84nM)中的活性,选择性倍数分别达到146倍、232倍(见图6B)。对于最大抑制效率低于40%、量效曲线质量较差的样本,我们不统计其半数抑制浓度。
为初步解析先导化合物的抑制机制,我们在生化实验体系中逐步提高底物苯甲醛的浓度。标准实验体系中,苯甲醛浓度为200μM(约1倍米氏常数Km),烟酰胺腺嘌呤二核苷酸(磷酸)浓度为1000μM(约4倍米氏常数),该浓度设置可规避辅因子结合口袋带来的干扰。为验证化合物是否与底物存在竞争关系,我们将苯甲醛浓度提升至4000μM(约20倍米氏常数),重新测试两款先导化合物。
实验结果显示:提升底物浓度后,两款化合物的浓度 - 效应曲线均出现显著右移(详见补充信息图S1、表S6),证明二者属于底物竞争性抑制剂。由于本次实验体系并未专门设计用于区分辅因子竞争模式,后续还需开展深入的动力学实验,进一步明确其属于纯底物竞争性抑制,还是混合模式抑制。
最后,为证实化合物与ALDH3A1蛋白的直接结合作用,我们合成了一款带有双吖丙啶基团的衍生物(21号化合物,详见补充信息图S2A)。令人欣喜的是,该衍生物保留了与母体化合物相近的活性:生化实验中IC50=0.738μM,细胞实验中IC50=15nM(详见补充信息图S2B)。
光交联实验流程:将21号衍生物与重组ALDH3A1蛋白共同孵育,随后使用紫外光照射,诱导二者发生共价交联。我们将完成标记的ALDH3A1蛋白进行酶解,结合高效液相色谱-串联质谱蛋白质组学技术开展分析。双吖丙啶介导的光交联反应,使目标肽段产生了554.19道尔顿的分子量偏移;该修饰精准发生在肽段WNAYYEEVVYVLE对应的氨基酸残基上(详见补充信息图S2C)。我们通过对照实验与竞争性实验,进一步验证了该结果的可靠性。
该肽段位于ALDH3A1活性口袋内侧的一段α-螺旋结构上。我们将该修饰位点映射到蛋白共晶结构中构建计算模型后发现:上述氨基酸残基区域,与共晶配体的结合位置高度重合。这一结果直接证明,13号化合物(NCATS-SM0707)作用于ALDH3A1经典的底物结合口袋(见图7、补充信息图S2D)。以上多项实验,从不同角度证实了该系列化合物可直接结合并作用于ALDH3A1蛋白。