一、研究背景与问题

创新药物研发耗时、高成本且高风险,苗头 / 先导化合物发现是关键。传统高通量筛选依赖10E4-10E10规模化合物库,如今难寻新型骨架活性化合物。从头分子设计可探索10E60规模化学空间,但现有深度生成模型(DGMs)有缺陷:依赖大数据集却数据有限;生成分子结合构象易冲突或重排;部分分子拓扑不合理、合成难、毒性高;缺先导优化网络;无湿实验难证生物活性,限制实用。

电子密度(ED)含蛋白质 - 配体相互作用关键信息,基于片段的药物设计(FBDD)能高效探索化学空间。据此,团队提出 ED2Mol 模型,融合二者以解决上述问题。

二、ED2Mol 模型设计

ED2Mol 是电子密度引导的结构感知型深度生成模型,核心是整合电子密度与 FBDD 策略,流程如下:

  1. 配体电子密度提取:用变分自编码器(VAE)从口袋结构推断配体 ED,构建 “伪配体” 空间。经计算得到 ED 图,VAE 以均方误差和 KL 散度为损失函数训练,确保推断准确。
  2. 核心片段放置:分层峰值密度搜索算法筛选核心位置,枚举并旋转核心,用 Q 分数选最优核心。
  3. 片段迭代扩展:等变图神经网络(EGNN)分两步更新分子状态,选生长位点、预测扭转角,生成多样分子。
  4. 先导化合物优化:以活性化合物为模板,ED 引导下通过片段替换 / 添加扩展,提升效能。

三、实验验证

(一)数据集

  • DUD-E 数据集:含 94 个正构口袋,评估常规性能。
  • ASB-E 数据集:含 112 个变构口袋,评估泛化能力。

(二)性能表现

  1. 从头生成:ED2Mol 生成分子稳定在口袋内,配体效能、生成成功率、结合有效性(PB-validity 达 97.0%-97.5%)、结合稳定性均优,可靠成功率是最优基准模型两倍多,药理特性佳且多样性高。
  2. 先导优化:ED2Mol 能识别未用 ED 区域,成功恢复 Brr2 抑制剂、PPARγ 激活剂等先导化合物,部分生成分子亲和力更优。
  3. 真实应用:针对 FGFR3、CDC42、GCK 靶点,ED2Mol 生成或优化出活性良好的化合物,结合模式与预测及晶体结构一致。

四、结论与展望

ED2Mol 解决了现有模型诸多问题,在基准测试、先导优化和真实场景中表现优异。未来可整合蛋白质构象柔性、多目标优化、探索隐藏子口袋,提升实用性。