REAL 数据库子集

开始探索 REAL 数据库的实用方法

REAL 样本

对超大规模化合物数据库(如 REAL 数据库)进行虚拟筛选时,可以采用逐步迭代的方式,从小规模子集开始入手。这样的多样化子集不仅可以为基于人工智能(AI)的算法训练提供关键数据,还可能直接筛选出有前景的苗头化合物(hit)。我们提供了三个 REAL 样本(分别占整个 REAL 数据库的 0.1%、1% 和 10%),这些样本让用户可以根据自己的计算资源情况,灵活地探索 REAL 数据库。这些 REAL 样本中的分子均符合 Lipinski 类药五原则(Ro5) 和 Veber 判据:分子量 (MW) ≤ 500、脂溶性 (SlogP) ≤ 5、氢键受体数 (HBA) ≤ 10、氢键供体数 (HBD) ≤ 5、可旋转键数 (RotBonds) ≤ 10 和极性表面积 (TPSA) ≤ 140,这些样本完全代表了整个 REAL 数据库的化学多样性。一旦筛选出感兴趣的苗头分子,您可以通过 store.enamine-genez.com 找到这些分子的 REAL 类似物,并进一步评估其可合成性与生物活性。

REAL 类先导化合物

REAL 类先导化合物子集 是通过对 REAL 数据库进行筛选获得的,筛选依据如下分子特性:分子量 (MW) ≤ 460、脂溶性 (SlogP) 在 -4 到 4.2 之间、氢键受体数 (HBA) ≤ 9、氢键供体数 (HBD) ≤ 5、环结构数 (Rings) ≤ 4、可旋转键数 (RotBonds) ≤ 10。在该子集中,我们进一步定义了一个名为 “350/3”子集 的化合物集合,其具有更严格的理化特性,具备更高的优化潜力和强效活性预期:分子量 (MW) 在 270 到 350 之间、重原子数 (HAC) 在 14 到 26 之间、脂溶性 (SlogP) ≤ 3、芳香环数 (aryl rings) ≤ 2。

REAL 片段

Enamine 拥有大量的库存片段化合物。而 REAL 数据库进一步扩展了这一片段空间,使您能够发现新的可用于生长和优化苗头化合物(hit) 的分子。我们通过对整个 REAL 化合物集合应用 “片段类药三原则(Ro3)” 筛选出 REAL 片段(Rule of Three)标准(分子量 (MW) < 300、脂溶性 (SlogP) ≤ 3、氢键受体数 (HBA) ≤ 3、氢键供体数 (HBD) ≤ 3、可旋转键数 (RotBonds) ≤ 3、极性表面积 (TPSA) ≤ 60),此外,我们还提取了一个单一药效团子集,其符合更为严格的分子筛选标准(分子量 (MW) 在 140 到 230 之间、脂溶性(SlogP) 在 0 到 2 之间、重原子数 (HAC) 在 10 到 16 之间、可旋转键数 (RotBonds) ≤ 3、手性中心数 (chiral centers) ≤ 1)。

化学类别分类的 REAL 化合物

在虚拟筛选中,化合物结构中某些特定的结构片段(structural motives)频繁出现。通过这些结构特征对 REAL 数据库进行预筛选,可以显著减少计算时间,提高筛选效率。为此,我们基于化合物结构中特定化学片段(moieties)或药效团(pharmacophores) 的存在情况,创建了一系列 REAL 数据库子集。

REAL 类天然产物化合物

我们采用了 P. Ertl 等人 发表的方法,用于预测 REAL 化合物的天然产物相似性(natural product-likeness)。REAL 类天然产物化合物是指那些具有类药性质,并且在天然产物相似性评分中得分为正数的分子。

REAL PPI 调节剂(Protein-Protein Interaction Modulators)

靶向蛋白质-蛋白质相互作用(PPI) 是现代药物发现中寻找新疗法的常用策略。Enamine 的 REAL PPI 调节剂化合物集,包含具有与已知 PPI 调节剂相似的理化特征的分子,其主要特征:分子量(MW):400 ≤ MW ≤ 700、脂溶性(LogP)≤ 4.0、sp³ 杂化碳比例(Fsp3)> 0.35、环结构数(Rings):3 ≤ Rings ≤ 6。这些化合物具有与已知调节 PPI 的分子相似的结构特征,是发现新型结构骨架和探索PPI 靶点的宝贵资源。

相关产品