人工智能赋能药物化学、加速药物研发：综合构效关系（CSAR）优化策略及强效ALDH3A1抑制剂的发现（下）

4、讨论与结论

研发针对治疗靶点、具备亚型选择性的小分子抑制剂，一直是药物发现领域的重大瓶颈。传统药物化学方法虽具备实用价值，但迭代优化周期漫长，也难以高效、广泛地探索化学空间。在本研究中，我们搭建了一套模块化的综合构效关系（CSAR）研究平台。该平台整合基于药效团的分子对接、规模化化学反应分子衍生技术与预测建模算法，有效突破了传统方法的局限，能够系统性、大规模地探索合成可行的广阔化学空间。

我们将这套研究流程应用于ALDH3A1靶点。该酶与肿瘤发生发展密切相关，目前领域内仍缺少强效、高选择性的小分子抑制剂。本研究结果证实，这套综合构效关系平台具备广泛适用性，能够有效加快苗头化合物到先导化合物的转化进程，对于传统研发手段进展缓慢的靶点，效果尤为突出。

这套综合构效关系策略的核心优势，在于将传统药物化学的研究逻辑，与现代计算技术的规模化、高效率特征相结合。以经过验证的苗头化合物为起点，我们依托化学反应分子衍生技术，参照经典的R基逐步优化思路（例如依次修饰R1、R2位点），在更大的化学空间内开展取代基探索。结合商用化学砌块与预测模型，我们通过两轮定向分子衍生实验，共计生成并筛选约25万个虚拟类似化合物。仅依靠人工设计或传统化合物库筛选，几乎无法完成如此大规模的探索工作。

值得强调的是，两轮合成实验均保持了极高的成功率（第一轮90%、第二轮近100%）。这一数据证明，我们在设计虚拟衍生体系时，充分考量了化合物的合成可行性 —— 这也是纯计算机分子设计工作中，常常被忽略的关键环节。同时，该技术框架并不局限于本文展示的两类化学反应。原则上，研究人员可根据研发需求，引入更多反应方案、搭建多轮迭代设计循环，完成连接链改造、分子骨架多样化等更深层次的药物化学修饰。

我们针对ALDH3A1开展的案例研究，充分证明该平台能够推动这类研究尚不充分靶点的构效关系开发。尽管学界早已证实ALDH3A1参与肿瘤耐药、肿瘤免疫逃逸过程，但由于缺少强效、亚型特异性抑制剂，针对该靶点的选择性化学探针研发进展一直较为缓慢。

我们依托基于药效团的虚拟筛选，筛选得到一款含噻唑环的磺酰胺类分子骨架，该骨架结合特征良好、具备修饰潜力。我们以此为起点，先后开展两轮基于化学反应的分子衍生：首轮修饰R1位点，第二轮修饰R2位点，系统性解析构效关系。

R1位点的优化实验取得了极高的化合物活性命中率（97%化合物\IC50＜30μM），同时多个类似物活性突破230nM，细胞水平活性低于5μM。仅单轮设计就实现了活性大幅提升，这充分说明：在化合物筛选早期引入预测模型，具备极高的实际应用价值。

第二轮优化实验聚焦于分子R2位点，进一步提升化合物的生化活性与细胞活性。在该阶段，我们使用第一轮实验获得的生化数据，重新训练深度学习共识架构（DLCA）定量构效关系模型，依托多套不同分子表征体系构建预测模型，从庞大的衍生化合物库中高置信度筛选候选分子。

这套组合策略帮助我们合成得到活性最优的一批类似物，其中就包括13号化合物（NCATS-SM0707）与14号化合物（NCATS-SM0708）。二者生化水平半数抑制浓度分别达到1nM、32nM，细胞水平半数抑制浓度分别为14nM、4nM。

我们还合成了带有双吖丙啶基团的亲和探针（21号化合物），结合蛋白质组学技术解析化合物结合模式。实验结果直接证实：该系列化合物结合于ALDH3A1经典底物结合口袋，与生化实验、结构分析推导的作用机制完全吻合。

两款先导化合物兼具优异的细胞活性、初步体外ADME性质与亚型选择性，相比以往报道的ALDH3A1抑制剂（例如CB7）实现了质的突破。它们不仅可作为优质先导化合物继续深度优化，也能作为特异性化学探针，在肿瘤模型中验证ALDH3A1的治疗靶点价值。

NCATS-SM0708达到4nM的超高细胞活性，这一结果尤为亮眼，也证明这套研究流程能够将强效的靶点抑制活性，高效转化为全细胞水平的作用效果。该系列分子具备深入生物学研究、持续开展先导化合物优化的价值。

尽管该系列化合物拥有优异的生化活性、细胞活性与亚型选择性，但作为候选药物仍存在明显短板。绝大多数高活性类似物（包括NCATS-SM0707与NCATS-SM0708）的动态水溶性较差；同时，NCATS-SM0708的肝微粒体代谢稳定性仅处于中等水平。虽然超高的生物活性，在一定程度上弥补了理化性质的缺陷，但目前这类分子仅能定义为强效、高选择性先导化合物，尚未达到候选药物的开发标准。

在后续的流程迭代中，我们需要在原有筛选标准（活性、选择性）基础上，引入溶解度、代谢稳定性等多参数优化指标。

从药物化学角度分析苗头化合物到先导化合物的研发效率指标（详见补充信息表S7），也能清晰看出优化轨迹：NCATS-SM0707的配体效率、亲脂性配体效率，均优于原始苗头化合物。这说明其活性的大幅提升，并非依靠增大分子体积、提高脂溶性实现。而NCATS-SM0708虽同时保有优异的生化与细胞活性，但效率指标偏低。这也反映出，该分支化合物在活性提升与理化性质损耗之间，形成了不同的平衡关系。

为解析优化过程中活性提升的结构基础，我们对比了原始苗头化合物与NCATS-SM0707在ALDH3A1结合口袋中的分子对接构象（详见补充信息图S3）。分析结果显示：优化后的类似物，与原始苗头化合物结合在蛋白的同一区域，噻唑 - 酰胺核心骨架在底物结合口袋中的整体位置保持不变。值得注意的是，NCATS-SM0707存在两种合理的对接取向：一种与原始苗头化合物的构象完全对齐，另一种则为翻转构象。仅依靠分子对接技术，无法唯一确定其真实结合几何形态。

从对接模型中，我们并未发现R2位点出现单一的新增相互作用，能够完全解释活性的跨越式提升。但模型证实：优化后的分子与蛋白口袋的整体互补性得到增强，同时依旧稳定结合在经典活性区域。若要完整解析活性提升背后的能量机制，还需要开展更高分辨率的结构研究、生物物理实验，这已超出本文的研究范畴。

我们依托Morgan指纹计算Tanimoto相似度，构建适用域筛选规则，进一步提升定量构效关系预测结果的可靠性。我们将相似度阈值设定为0.6，将所有衍生化合物与模型训练集分子进行比对，仅保留相似度达标的分子。该规则将预测范围限制在模型训练所覆盖的化学空间内，规避了外推预测带来的不确定性。

在实际应用中，适用域筛选规则提升了多级筛选流程的稳健性，帮助我们将研究重心聚焦于最有可能产生实测生物活性的类似化合物。总而言之，该规则是一套重要的优化手段，在兼顾预测导向探索与化学合理性、实验可行性之间，找到了完美的平衡点。

ALDH家族不同亚型之间，序列同源性、活性口袋结构相似度较高，实现亚型选择性是该领域公认的技术难点。而NCATS-SM0707与NCATS-SM0708展现出的优异亚型选择性，得益于我们整套以ALDH3A1为核心的筛选体系。

我们的药效团模型、分子对接筛选规则，均基于ALDH3A1的结合口袋特征搭建，优先筛选与该口袋体积、氢键拓扑结构高度匹配的分子，同时排斥适配其他ALDH亚型的化学结构。这种设计思路，从源头引导化合物向ALDH3A1特异性结合的方向优化。两款先导化合物对ALDH家族其他亚型活性微弱，能够最大程度降低脱靶效应，也让研究人员可以精准地将生物学现象归因于ALDH3A1的抑制作用。

本文搭建的平台具备高度可拓展性，并不局限于文中展示的两轮分子衍生实验。该平台经过设计，可灵活接入各类化学反应，在分子的不同位点开展修饰，探索近乎无限的化学空间。

未来的优化方向主要分为两点：第一，结合更先进的分子生成模型开展骨架跃迁研究，与传统构效关系拓展相结合；第二，在分子设计早期，嵌入吸收、分布、代谢、排泄与毒性（ADMET）预测模块，进一步精简候选化合物列表。

综上，本研究搭建了一套结构完整、可规模化、具备通用价值的人工智能引导型苗头化合物-先导化合物研发平台，有效加快整体药物研发进程。该平台融合基于药效团的分子对接、基于化学反应的分子衍生与机器学习技术，打通了传统药物化学经验与计算机可探索的海量化学空间之间的壁垒。

本研究成功发现多款活性强效、细胞通透性良好、亚型选择性优异的ALDH3A1抑制剂。这一成果，不仅推动了ALDH3A1相关生物学领域的研究，也充分印证了人工智能驱动型技术在现代药物研发中的变革性价值。

这套研究流程适配各类研发难度较高的治疗靶点，既可用于开发高品质化学探针，也能为后续治疗药物的研发提供指导，是一套具备实用性与可适配性的全新研究策略。

5、实验部分

基于药效团的分子对接与虚拟筛选

我们使用MO软件，完成基于药效团的分子对接与虚拟筛选工作。我们采用人源ALDH3A1晶体结构（蛋白质数据库编号：4H80）定义配体结合位点，并以此构建基于蛋白结构的药效团模型。该模型提取共晶配体上的关键相互作用特征，包括氢键供体、氢键受体、疏水区域与芳香环结构——这些结构是分子与靶点结合的核心要素。

本研究所有对接实验，均选用ALDH3A1共晶结构中的配体结合口袋作为活性位点。我们使用分子操作环境软件完成蛋白预处理：去除水分子与无关杂原子、补充氢原子、设定合理的质子化状态，并开展能量最小化计算，优化蛋白构象，为对接实验做准备。

用于对接的化合物库包含约10000个结构多样的分子。我们使用分子操作环境的配体预处理模块，完成化合物库制备：生成三维构象、分配质子化状态、能量最小化，确保所有化合物均满足对接实验要求。

对接实验流程

对接实验的核心流程：将预处理后的化合物库分子与药效团模型进行叠合，筛选潜在结合分子。我们使用MOE内置的对接算法与亲和力dG打分函数，模拟分子与靶点结合口袋的相互作用。

对接完成后，我们根据分子对接构象、与药效团模型的匹配程度，对所有化合物进行打分排序。分子操作环境的打分函数可定量评估分子的预测结合亲和力，得分越高，代表分子越有可能具备生物活性。

基于KNIME平台开展化学反应分子衍生

我们依托康斯坦茨信息挖掘器（KNIME）分析平台，完成基于化学反应的分子衍生工作。该平台为化学信息学工作流的搭建与运行，提供了灵活的环境。本研究主要围绕两类核心合成反应开展实验：各类胺参与的酰胺偶联反应、N-取代哌嗪参与的亲核芳香取代反应，以此围绕分子母核结构探索化学空间。

我们编写两类反应对应的SMARTS反应规则，借助KNIME平台中的RDKit双组分反应模块，将核心分子骨架与Enamine公司提供的商用化学砌块进行组合，系统性生成虚拟化合物库。

本次分子衍生分为两个阶段：第一阶段聚焦R1位点的取代基改造，共计生成9336个类似化合物；第二阶段针对R2位点开展衍生，生成约250000个额外化合物。这套策略能够系统性探索分子两个区域的取代模式，支撑构效关系研究，筛选出具备合成价值的类似化合物。

在化合物进入对接与合成环节前，我们首先使用依托内部生化筛选数据训练的定量构效关系模型，对衍生化合物库进行活性预测，提前筛选出预测活性优异的候选分子。

用于化合物优先级排序的定量构效关系（QSAR）建模

我们搭建深度学习共识架构（DLCA）模型，分别对R1、R2位点衍生得到的化合物库进行活性排序。已有研究证实，在分类任务与回归任务中，该深度学习共识架构的预测效果，与当下主流机器学习、深度学习算法持平甚至更优。

该架构整合多个深度神经网络的预测结果，而不同网络分别依托多样化的分子表征体系进行训练，包括Morgan指纹、Avalon指纹、AtomPair指纹、RDKit 理化描述符，以及基于简化分子线性输入规范（SMILES）搭建的卷积神经网络。研究人员还可灵活拓展该架构，接入其他类型的分子描述符与表征方式（例如分子图）。最终预测结果取所有网络输出值的平均值，形成共识得分。该方式能够融合不同表征体系的优势，减少误差传递。

同时，我们依托RDKit理化描述符、Morgan指纹、Avalon指纹、AtomPair指纹，以及上述特征的组合数据集，构建随机森林模型，与深度学习共识架构模型进行性能对比。

为保障定量构效关系模型的预测可靠性，我们依托Morgan指纹计算Tanimoto相似度，设定模型适用域标准：仅保留与训练集分子相似度不低于0.6的化合物。该规则将分析范围限定在与已知活性分子化学特征相近的空间内，同时保证衍生类似物库的覆盖广度。

针对回归任务，我们开展批次均衡处理，消除模型偏向低活性化合物的预测偏差。以上多重质控手段，让我们能够从海量虚拟化合物库中，精准筛选出数量精简、适合开展实验验证的候选分子。