基于深度卷积神经网络的RNA-蛋白质结合位点预测方法研究

RNA结合蛋白参与许多生命活动过程,例如:转录后基因调控,m RNA定位等。一些RNA结合蛋白的突变可能会导致某些人类疾病,例如,RNA结合蛋白hn RNPA2B1和hn RNPA1的突变会导致多系统蛋白病和肌萎缩侧索硬化症。随着高通量测序技术的进步,生物医学的研究人员构建了许多大规模数据集来记录实验验证的RNA-蛋白质结合位点。但高通量测序技术存在实验过程复杂、花费高、耗时长的缺点,且实验过程中的噪声干扰可能会得到一些假阳性和假阴性样本。随着机器学习的发展,训练机器学习模型来预测RNA-蛋白质结合位点是一种有效的方法,通过高通量技术得到的实验数据集被用来为机器学习模型学习RNA序列和特定蛋白质的结合偏好。生物信息学研究人员提出了许多基于深度学习的RN此网站A-蛋白质结合位点预测方法。如何从RNA序列信息中提取到更多特征来提高深度学习模型的预测效果是需要解决的问题。本文针对上述问题,主要研究内容如下:(1)为了捕获RNA序列的长序列特征,本文提出了一种基于多头自注意力机制的卷积残差网络模型。该模型结合了卷积神经网络、残差神经网络和多头自注意力机Belumosudil小鼠制来识别RNA序列上的RNA-蛋白质结合位点。该模型使用预处理好的RNA序列作为输入,然后输入数据被卷积层和残差层处理,该方法把传统残差块中的卷积操作替换成了多头自注意力模块。实验证明在该模型中使用301长度的预处理窗口代替传统的使用101、501预处理窗口取平均值的方法,能够更好地拟合蛋白质的序列结合特征。在RBP-24数据集的24个实验中,卷积残差注意力模型的平均AUC值为0.946,超过了Graph Prot方法的0.887、deepnet-rbp的0.902、i Deep E的0.931、Deep CLIP的0.935和i Deep C的0.941。结果表明本章的模型可以有效地提高预测RBPs的性能。(2)为了从RNA的基础序列中提取更多的结合信息,本文提出了多重卷积神经网络模型。该模型包括三个阶段:确定预处理窗口间隔、处理RNA序列和训练模型。首先,根Protein Characterization据训练集中样本的序列长度,该方法规定预处理窗口的最大长度为501个核苷酸,确定窗口间隔即可确定预处理窗口的数量和长度。其次,使用每个长度的预处理窗口处理RNA序列得到多个单热编码矩阵,其数量等于预处理窗口的数量。最后,使用每个单热编码矩阵训练一个卷积神经网络模型,最终的预测结果取多个模型的平均值。该方法通过整合从不同长度的预处理窗口中提取的RNA序列信息构建的多个卷积神经网络来预测RNA-蛋白质结合位点。在公开的数据RBP-24上使用AUC指标进行性能测试,多重卷积神经网络模型的平均AUC值为0.950,超过了卷积残差注意力模型的0.946。(3)为了充分结合不同子模型提取到的RNA序列的结合特征,并使其能够达到优势互补的效果。本文提出了一种权重投票深度学习模型,它集成了卷积神经网络、卷积-长短期记忆网络和残差神经网络三个子分类器模型。权重投票深度学习方法在训练集上对三个子分类器模型分别进行训练,保存训练好的模型。然后使用训练好的三个子分类器模型在测试集上找到最优的权重组合。不同的深度学习子模型在训练的过程中提取的特征不同,对于同一个样本序列的检测效果也不相同。权重投票深度学习模型的优势在于充分使用了多个子分类器学习到的RNA序列中和特定蛋白质的结合特征,并找到它们的最优权重组合。在公开数据集RBP-24上与其他算法进行比较,权重投票深度学习模型的平均AUC为0.952,超过了卷积残差多头自注意力模型的0.946和多重卷积神经网络模型的0.950,结果表明该算法具有较好的识别RNA序列上的蛋白质结合位点的性能。