近期,bat365在线唯一官网登录施建宇教授团队在《Bioinformatics》上发表了题为“CProMG: Controllable Protein-Oriented Molecule Generation with Desired Binding Affinity and Drug-Like Properties”的论文,得到了国家自然科学基金和CAAI华为MindSpore基金等科研项目的资助。bat365在线唯一官网登录硕士生李嘉宁为第一作者,施建宇教授为该论文的通讯作者。
下文简要介绍了本文的主要内容。
1. 研究背景
在新药研发过程中,发现候选药物的投入成本是最大的,且是最有机会提升新药研发效率的一环。然而,药物小分子的化学空间十分巨大,包含1030-1060个小分子,在如此巨大的化学空间中找到合适的小分子候选药物十分困难。在过去,虚拟筛选或高通量筛选技术是两种经典的筛选候选分子的方法,但是基于筛选的方法依赖于已有的数据库,生成的分子缺乏新颖性。随着深度生成模型在计算机视觉和自然语言处理领域的成功应用,使得利用生成模型从头设计新的分子成为可能。本论文提出了一个深度学习模型,命名为CProMG(controllable protein-oriented molecule generation),基于蛋白质结构生成属性可控的药物小分子。
2. 研究方法
为了解决这些问题,本文提出了一个在所需类药属性控制下进行分子生成的蛋白质导向生成框架CProMG,包含一个三维蛋白质嵌入模块、一个双视图蛋白质编码器、一个分子嵌入模块和一个新型类药物分子解码器(图1)。基于融合蛋白质层次结构的想法,CProMG通过将蛋白质氨基酸结构与原子结构的特征融合,显著增强了蛋白质结合口袋的表现力。通过联合嵌入分子的SMILES序列、类药物性质和与蛋白质的结合亲和力,使用多头交互注意力块计算分子字符与蛋白质残基和原子的接近程度,从而可以捕捉蛋白质口袋和分子之间的关键相互作用,最终以可控的方式自回归生成具有特定性质的新分子。
与最先进的深度生成方法的比较表明了我们的CProMG的优越性。此外,属性的逐步控制证明了CProMG在控制结合亲和力和类药属性时的有效性。之后,消融研究揭示了其关键组件如何分别对模型做出贡献,包括层次蛋白质视图、拉普拉斯位置编码以及属性控制。最后,一个关于蛋白(PID: 5I0B)的案例研究说明了CProMG的新颖性以及捕获蛋白质口袋和分子之间关键相互作用的能力。预计这项工作可以促进分子的从头设计。
3. 研究案例
图2 案例分析
4. 发表论文
选择PID为 5I0B的蛋白质进行案例研究,该蛋白突变在多种肿瘤问题中被检测到。在运行CProMG-VQS后,根据VS选择了它的前5个生成分子,并应用RDKit计算它们的QED、SA、LogP和TPSA值(图2)。结果显示每个分子都满足QED ≥ 0.6,SA≤ 4.0,而其LogP和TPSA符合RO5。这表明所生成的化合物易于合成并且具有良好的类药物性质。且生成分子与参考分子的相似性较低,表明生成的分子是新颖的。
Li J N, Yang G, Zhao P C, et al. CProMG: controllable protein-oriented molecule generation with desired binding affinity and drug-like properties[J]. Bioinformatics, 2023, 39(S1): i326-i336.
其在线链接为:
https://academic.oup.com/bioinformatics/article/39/Supplement_1/i326/7210458
(文、图:李嘉宁、施建宇;审核:杨慧)