计算机辅助表皮生长因子受体抑制剂的活性预测研究

自2020年以来,全球癌症的发病率和死亡率持续增高。根据统计数据,每年的新发癌症病例已超过1900万例,死亡病例超过990万例,尤其是乳腺癌、肺癌和结直肠癌等癌症类型的发病和死亡人数占据了绝大多数。表皮生长因子受体(EGFR)在肿瘤细胞的增殖、血管生成、肿瘤侵袭、转移及细胞凋亡等过程中发挥关键作用,EGFR蛋白的异常表达是癌症发生的重要信号,因此,EGFR是重要的用于抗癌药物设计的靶点。然而,由于EGFR的突变而引起的耐药性一直是开发EGFR小分子抑制剂的一个重要问题,研究针对EGFR的创新药物具有巨大的潜力,有望为治疗癌症提供重要的解决方案。本论文以EGFR为主要研究对象,通过化学信息学和人工智能等方法研究EGFR抑制剂的结构和活性关系,通过虚拟筛选和实验验证发现新型EGFR抑制剂。为实现这一目标,本论文运用多种机器学习算法,对野生型EGFR、L858R/T790M双突变EGFR及L858R/T790M/C797S三突变EGFR抑制剂的构效关系进行了深入研究SAG molecular weight,构建了EGFR抑制剂生物活性预测的多个构效关系模型。在此基础上,采用了基于配体和受体的分级虚拟筛选方法,对包含超过500万化合物的数据库进行虚拟筛选,并成功筛选出新型EGFR抑制剂。本研究的主要内容包括以下几个方面:(1)通过多种机器学习的方法探究EGFR抑制剂的构效关系。建立包含5371个EGFR抑制剂的结构和活性数据集,半数抑制浓度IC_(50)值的范围在0.003 n M~6500μM。接着,以100 n M为阈值对数据集进行划分,即IC_(50)值小于100 n M的作为高活性化合物,大于1000 n M的作为低活性化合物。随后,计算了抑制剂的3种指纹描述符(ECFP4、MACCS和RDK)和3种物理化学描述符(CORINA、MOE和RDKit),并结合支持向量机(SVM)、随机森林(RF)、逻辑回归(LG)和全连接更多神经网络(FCNN)建立了24种定性分类模型,并对模型的应用域进行了探究。对模型预测正确率(Q)和马修斯相关系数(MCC)等进行了评价,发现SVM-ECFP4的模型组合具有最好的表现,训练集五重交互检验的Q为0.92,测试集的Q和MCC分别达到了0.94和0.88,为后续EGFR抑制剂的筛选建立了基础。除了定性分类模型之外,本研究选择数据集中1301个基于荧光法测定酶活的化合物,计算了每个化合物的CORINA描述符并结合SVM和多元线性回归(MLR)建立了6个定量回归模型。SVM回归模型中测试集平均决定系数(r~2)为0.731,平均绝对误差(MAE)为0.538,平均均方根误差(RMSE)为0.713。除此之外,利用K均值(K-means)对EGFR抑制剂基于ECFP4指纹进行结构聚类,将它们分为8类化合物。对每一类化合物分析其分子骨架和片段特征,并总结出了高活性片段和低活性片段。本研究收集到较为全面的EGFR抑制剂,覆盖较大的化学空间;建立的机器学习模型取得了良好的预测效果,挖掘出了重要的结构信息;为后续设计和筛选新型EGFR抑制剂提供了良好的基础。(2)综合运用多种计算方法和筛选方案来发现新型EGFR抑制剂。在第一种方案中,结合了分子三维形状相似性比对和定量构效关系模型预测的方法,从超过500万个化合物中成功发现了新型EGFR抑制剂。首先,使用了3个具有代表性的查询式进行分子三维形状相似性评分,其中两个查询式来自晶体结构,一个查询式使用图的深度生成模型获得。接着,运用定量构效关系模型筛选出预测为高活性的化合物。最终,经过酶学抑制活性验证,从18个化合物中鉴定出9个结构新颖的EGFR抑制剂(IC_(50)值小于10μM),其中3个命中化合物(hit 1、hit 5和hit 6)对EGFR的抑制活性IC_(50)值在80 n M左右。此外,通过分子动力学模拟,进一步计算了hit 1、hit 5和hit 6的MM/GBSA结合自由能,发现均低于-49 kcal/mol,同时探究了它们与EGFR相互作用的关键残基。在第二种方案中,结合了分子三维形状和静电相似性比对以及分子对接打分的方法,成功筛选出新型EGFR抑制剂。首先,本研究选择了两个高活性EGFR抑制剂AEE788和Afatinib作为查询式,利用基于分子三维形状和静电的相似性搜索方法筛选出排名靠前的化合物。接着,使用分子对接方法研究每个化合物与受体的结合亲和力,并进行排名。酶学的抑制活性测试结果显示,筛选出的13个化合物中有12个为新型活性EGFR抑制剂。其中3个化合物(A_1、A_2和A_3)的IC_(50)值在100 n M~1000 n M之间。本研究不仅成功发现了具有新型结构的高活性EGFR抑制剂,具有进一步优化开发的基础,并且通过该研究证实了基于两种级联虚拟筛选方案的有效性,也为我们开发其他靶点的新型先导化合物提供了重要参考。(3)构建了379个化合物对野生型EGFR(EGFR~(wt))和L858R/T790M双突变EGFR(EGFR~(L858R/T790M))抑制活性的数据集。以ECFP4指纹或SMILES为输入,结合支持向量机、随机森林和自注意力递归神经网络建立了6个二维分类模型。模型的Q值均在0.98以上,MCC值均在0.76以上。接着分析了高活性化合物的重要片段后发现:对于EGFR~(wt)抑制剂,含有苯胺喹啉和苯胺喹唑啉、甲氧基或氟取代苯的抑制剂属于高活性的比较多;对于EGFR~(L858R/T790M)抑制剂,苯胺嘧啶、酰胺、苯胺、甲氧基苯基和噻吩嘧啶酰胺均属于高活性片段。随后,根据ECFP4指纹,将379个化合物通过自组织神经网络(SOM)划分为6个类别,发现大部分喋呤化合物对EGFR~(wt)和EGFR~(L858R/T790M)都具有高活性抑制,苯胺嘧啶化合物对EGFR~(L858R/T790M)具有高活性抑制,苯胺喹啉或苯胺喹唑啉对EGFR~(wt)具有高活性抑制。在此基础上选择了喋呤、苯胺嘧啶和苯胺喹啉/苯胺喹唑啉为骨架的3组化合物,分别建立了三维比较分子相似性指数分析(Co MSIA)模型。通过分析位阻、静电、疏水、氢键供体和受体的等势图,发现了化合物对抑制EGFR~(wt)和EGFR~(L858R/T790M)的有利取代基和不利取代基类型。这些研究结果对于理解和设计针对EGFR~(wt)和EGFR~(L858R/T790M)的抑制剂具有重要的指导意义。(4)构建了L858R/T790M/C797S三突变EGFR(EGFR~(L858R/T790M/C797S))抑制剂的构效关系模型,并进行了新型EGFR抑制剂的活性预测工作。选择了高活性EGFR~(L858R/T790M/C797S)抑制剂BLU945、CH7233163和TQB3804作为查询式,对超过500万的化合物进行平行筛选。首先,根据分子的三维形状相似性评分,选择排名前500的化合物。在第一种筛选方案中,使用了基于配体的定量构效关系模型的分级筛选方法。建立了一个包含290个EGFR~(L858R/T790M/C797S)抑制剂的数据集,计算了ECFP4、MACCS、CORINA和RDKit描述符,并建立了4个SVM分类预测模型。模型的测试集MCC值均在0.75以上,ROC曲线下面积(AUC)均在0.87以上,显示出良好的预测能力。利用共识模型选择化合物,最终获得了9个候选化合物。此外,还使用SOM聚类方法将已知和未知活性的化合物进行聚类,将相似结构的化合物聚集到同一个神经元中。通过神经元中已知化合物的活性预测未知化合物的活性,最终获得了5个候选化合物。经过酶学抑制活性测试,发现AM01、AS01和AS02这3个化合物对EGFR~(L858R/T790M/C797S)的IC_(50)值分别为106.4 n M、524.6 n M和145.3 n M。第二种筛选方案是使用配体-受体的相互作用信息来发现活性抑制剂的筛选方法。在PDB数据库中找到相应的复合晶体进行分子对接,并通过共识评分,得到了20个预测结合亲和力较高的候选化合物。经过酶学抑制活性测试,发现3个化合物TD01、TD02和TD03对EGFR~(L858R/T790M/C797insect biodiversityS)的IC_(50)值分别为7.6 n M、33.9 n M和95.3 n M。通过分析化合物的结构发现,所有的命中化合物均为新型EGFR~(L858R/T790M/C797S)抑制剂,可用于进一步研究,为C797S耐药性突变提供了研究基础,也为发展自主研发并拥有自主知识产权的抗癌新药打下了基础。综上所述,本论文以表皮生长因子受体EGFR为研究靶点,深入探讨了EGFR~(wt)、EGFR~(L858R/T790M)和EGFR~(L858R/T790M/C797S)抑制剂的结构和活性关系。充分利用配体的结构和物化性质以及配体-受体的相互作用信息,采用了多种计算方法,包括相似性比对、机器学习模型预测、分子对接和动力学模拟等,建立了分级虚拟筛选流程。这一流程成功地帮助发现了潜在的新型EGFR抑制剂,为抗肿瘤药物的研发提供了参考。