700字范文 > DeepUbi：预测蛋白质泛素化位点的深度学习框架

DeepUbi：预测蛋白质泛素化位点的深度学习框架

时间：2022-12-15 11:31:13

文章背景

泛素泛素化是指泛素蛋白与赖氨酸(K)的靶蛋白结合，是真核生物中信号转导、细胞分裂和免疫反应等多种细胞功能的重要调节因子。然而，目前大多数预测目标位置的计算工具都是基于小规模数据和浅层机器学习算法。

结果

随着更多实验验证泛素化位点的出现，需要设计一个预测器来识别大规模蛋白质组数据中赖氨酸泛素化位点。这篇文章提出了一种基于卷积神经网络的深度学习预测器DeepUbi。从序列和物理化学性质上采用了四个不同的特征。在10倍交叉验证中，DeepUbi得到的AUC(接收机操作特征曲线下面积)为0.9，其准确性、敏感性和特异性均超过85%。综合指标MCC达到0.78。

结果表明，DeepUbi在基于大量数据的泛素化预测中具有良好的性能。

泛素最早是由Goldstein等人发现的。一九七五年[1]。泛素化是一种常见的真核细胞翻译后修饰(Ptm)，是泛素与多种细胞蛋白的共价结合。2]。在泛素化过程中，泛素通过三步酶促反应附着在赖氨酸(K)残基上的底物上。有三种酶–泛素激活酶(E1s)、泛素结合酶(E2s)和泛素连接酶(E3s)，它们一个接一个地起作用。3,4,5]。泛素化系统负责细胞分子功能的许多方面，如蛋白质定位、代谢、调节和降解。4,5,6,7]。它还参与细胞分裂和凋亡、信号转导、基因转录、DNA修复和复制、细胞内转运和病毒出芽等多种生物学过程的调控。4, 5]。有证据表明泛素化与细胞转化、免疫反应和炎症反应密切相关。8]。异常泛素化状态也涉及到许多疾病。例如，转移抑制因子1的泛素化是由Skp 1-cullin1-F盒β-转导蛋白介导的，对调节乳腺癌和前列腺癌细胞的增殖和迁移至关重要。9].

由于泛素化的作用，对泛素化位点的准确预测显得尤为重要。传统的实验方法费时费力，因此，作为一种补充方法，计算方法是必要的。10, 11]。近年来，各种机器学习方法被应用于蛋白质泛素化位点的预测。董和何[12]利用支持向量机(SVM)开发了泛素化位点预测器UbiPred，从已发表的氨基酸指数中选取了31个信息丰富的物理化学特征。13]。Radivojac[14使用随机森林算法开发了一个以586个序列属性作为输入特征向量的预测器UbPred。赵[15]对表决机制采取了一种整体办法。李[16]设计了UbSite，它使用有效的径向基函数(RBF)核来识别泛素化位点。陈17]利用k-间隔氨基酸对(CKSAAP)的组成，提出了一个预测因子CKSAAP_UbSite。蔡[18]提出了一种利用最近邻算法的预测器。陈19]提出了一种新的工具，UbiProber，它是为一般和特定物种设计的。陈20]通过集成四种不同类型的预测变量来开发hCKSAAP_UbSite。邱[21]使用支持向量机开发了iubq-lys。蔡和江22使用多种机器学习算法预测泛素化位点。王[23]使用进化算法(ESA)设计了一个工具，ESA-UbiSite。此外，还有许多其他预测因素，如UbiSite[24UbiBrowser[25]、鲁比[26，WPAAN分类器[27，MDDLogoClusterSVM模型[28]和非典范路径网络[29]。

虽然泛素化位点预测器已经开发出来，但仍然存在局限性。如上所述，现有的泛素化位点预测的计算方法是浅层机器学习方法，其数据集较小。然而，大量的生物医学数据已经积累，浅层机器学习算法不能很好地处理大数据。在本研究中，我们提出了一个赖氨酸泛素化预测器，DeepUbi，它使用了一个大型数据集上的深度学习框架。

交叉验证性能

如表所示。为了衡量预测器的质量，我们考虑了如何客观地得出预测值。一般采用三种不同的检验方法来评价预测性能：独立数据集检验、二次抽样检验和折刀检验[30]。折刀检验可以排除“记忆”效应和任意性问题，因为对于给定的基准数据集，刀交叉验证获得的结果总是唯一的[21]。然而，这是费时的，特别是对于大型数据集。在本研究中，由于数据集庞大，采用k次交叉验证来评价所提出的预测器的性能。

首先，在简单的One-Hot编码方案上执行4倍，6倍，8倍和10倍交叉验证。结果显示在表2中。所有精度均大于85％，最高准确度达到88.74％，说明了CNNUbi的鲁棒性。 ROC曲线和AUC值如图1所示，更加直观，最大AUC值为0.89。这些结果表明，深度学习框架学习了一些本能信息并具有良好的性能。为了获得更多信息，我们在One-Hot编码方案中添加了其他三个功能（请参见表3和图2）。在10倍交叉验证中，所有ROC曲线都非常接近。one-hot+CKSAAP编码方案显然在所有这些功能中表现最佳。我们称其为DeepUbi，其AUC为0.9066，MCC为0.78。

与其他现有方法的比较

我们的模型与可用的基于序列的预测变量进行了全面比较，相应的数据和结果如表5所示

为了消除数据量差异的影响，我们进行了额外的实验。我们从数据中随机选择10次与现有预测变量数量相同的正样本和负样本。每个样本集均经过10次交叉验证测试，结果列于表6。表5和表6的比较表明，对于相同数量的样本，DeepUbi结果远高于其他预测变量的结果。例如，UbiPred中的数据的Acc为84.44％，Sn为83.44％，Sp为85.43％，AUC为0.85，MCC为0.69。选择10次与测试集相同数量的UbiPred数据，DeepUbi的平均结果为：Acc为98.77％，Sn为98.87％，Sp为98.67％，AUC为0.99，MCC为0.98。 DeepUbi的AUC值接近0.9，说明了深度学习的性能。

泛素化肽的分析

为了验证预测器的性能，我们还使用训练数据进行了分析。首先，如图3a和b所示，生成了泛素化候选位点周围的侧翼氨基酸组成的概率直方图。氨基酸残基Ala（A），Glu（E），Leu（L），Arg（R）和Ser（S）出现得更多阳性数据（泛素化片段）中的比率较高，而Cys（C），Phe（F），His（H），Ile（I）和Val（Y）则更富含阴性数据（非泛素化片段）。接下来，使用众所周知的工具Two Sample Logo [31]来检测训练数据之间的特定位置氨基酸组成差异，序列徽标如图3c所示。结果揭示了底物位点周围侧翼氨基酸的依赖性。

讨论

我们使用专为蛋白质赖氨酸修饰设计的最大数据存储库，以了解DeepUbi预测因子。卷积神经网络，一种深度学习框架，被用来预测泛素化。它由卷积层，非线性层和池化层组成。卷积神经网络可以学习输入和输出之间的大量映射关系，而无需在输入和输出之间使用任何精确的数学表达式。我们构建六个步骤，包括输入片段，构建嵌入层，构建多卷积池层，添加要素，构建完全连接的层以及输出层。

在特征构建中采用了四种更好的编码方案：one-hot编码，理化性质，k间隔氨基酸对的组成（CKSAAP）和伪氨基酸组成。在交叉验证中，one-hot+CKSAAP的性能最佳，AUC为0.9066。

one-hot编码

氨基酸组成的常规特征表示使用20个二进制位表示一种氨基酸。为解决滑动窗口跨越N端或C端的问题，附加了一个额外的位以指示这种情况。然后，使用大小为（20 +1）位的向量表示样本。例如，氨基酸A表示为’100000000000000000000’，而R表示为’010000000000000000000’。

信息物理化学性质（IPCP）

在PTM位置预测中，理化特性对于提取片段或蛋白质的信息至关重要。 Tung [12]提出了一种信息量大的理化性质挖掘算法，该算法可以量化各个理化性质在预测中的有效性。他们使用了主要效应差异（MED）的值[35]来理化物理化学性质的各个效应。具有最大MED的属性在预测泛素化位点方面最有效.

K间隔氨基酸对（CKSAAP）的组成

CKSAAP编码方案是蛋白质序列中k个间隔开的残基对（由k个氨基酸分隔）的组成，可用于预测蛋白质的柔性或刚性区域[36]。例如，有441个残基对（即AA，AC，…，XX）。因此，特征向量可以定义为

其中Ntotal是该片段中k个间隔残基对的总数，而NAA是该片段中氨基酸对AA的数目。载体中的每个组分代表k个间隔的氨基酸对的贡献。

伪氨基酸组成PseAAC。

zhou的伪氨基酸组成是一组离散的系列相关因子，结合了传统的20个氨基酸成分[37]。在研究中，我们选择了20个相关因子，这些因子的权重为0.05，并获得了40维向量。

方法

基准数据集

在这项研究中，泛素化数据是从PLMD（v3.0，6月）数据库中收集的[32]，这是设计用于蛋白质赖氨酸修饰的最大在线数据存储库。原始数据包含来自25,103个蛋白质的121,742个泛素化位点。如果数据包含同源样本，则会增加结果的偏倚。我们使用CD-HIT网络服务器[33]删除了多余的蛋白质序列，以消除同源性偏倚，该服务器可从http://weizhongli-/cd-hit/免费获得，并获得12,053种蛋白质，其≤30％序列同一性。长度为15×2 +1 = 31的滑动窗口用于截取中间带有赖氨酸残基的蛋白质序列。如果蛋白质的上游或下游残基小于15，则缺少的残基将被“伪”残基“ X”填充。与阳性肽相比，阴性肽太多。为了获得更好的预测指标，我们通过使用30％的一致性删除冗余片段来选择阴性样本，以确保阴性片段中没有任何片段具有≥30％的成对一致性[24]。最后，我们获得了包含53,999个泛素化和50,315个非泛素化片段的训练数据集。这些步骤的详细流程图如图4所示。

图4数据收集和处理流程图。首先，收集原始蛋白质，然后用CD-Hit去除多余的蛋白质序列。其次，以31个滑动窗口截取蛋白质序列，得到正，负片段。最后，在阴性样本中使用30％的同一性以获得平衡的训练数据.

算法

深度学习是从大数据的获取中演变而来的，而并行和分布式计算的功能则促进了许多领域的重大进步，例如图像识别，语音识别和自然语言处理[38]。

每个蛋白质都是一个句子，蛋白质序列中的残基可以看作是“单词”。泛素化的预测可以看作是“自然语言预测”（NLP）任务。因此，我们提出了卷积神经网络（CNN）深度学习模型，并在大数据集上获得了良好的预测性能。卷积神经网络（CNN）是深度学习框架。它由卷积层，非线性层和池化层组成。我们的模型由六个步骤构建（输入片段，构建嵌入层，构建多重卷积池层，添加要素，构建完全连接的层以及输出层），如图5a所示。

输入的蛋白质片段表示为x ∈ RL×21，其中L是碎片的长度。第一层是嵌入层，将输入向量映射为低维向量表示.本质上是我们从数据中学习到的查找表。E=XWe，其中e是嵌入维度，We是嵌入权矩阵和E∈RL × e是嵌入矩阵，它是一个连续积。然后将嵌入矩阵E赋值为图像，利用卷积神经网络进行特征提取。由于碎片中的相邻残余物总是高度相关的，因此可以使用一维卷积。卷积核的宽度是嵌入向量的维数。高度是一个超级参数，这是一个手动设置。例如，如果有一个具有大小为ak的卷积滤波器，然后通过卷积得到特征映射。

其中f是激活函数，它是一个校正的线性单元(Relu)[39], w是权向量，zk∈RL−ak+1。尺寸卷积滤波器的数目ak也设置好了。从不同的卷积核得到的特征映射大小不同，因此使用最大池化函数来保持相同的维数。然后得到最终特征向量h。我们使用从最后一步获得的特征，没有附加的特征，即，hNEWS= h。作为比较，第二个模型，DeepUbi，是通过附加的特性和hNEWS=[h, b]，其中b是额外的特征。最后，两个输出单元中的每一个都有0到1之间的分数，如Softmax方程所示。pi=ei∑jejpi=ei∑jej。这里,i = Fcwo表示类单元的输入。i, Fc是完全连接层的输出，并且wo就是权重矩阵。交叉熵目标函数被指定为成本函数添加特征。

其中N表示测试集大小，xn和yn表示第n个蛋白片段及其标签。使用ADAM优化器，对DeepUbi进行了基于批大小、最大时差、学习率、退出率和卷积块等多种超参数的训练。

图5是CNN深度学习模型的流程图。 b卷积池结构的示例。输入片段并编码；构造一个嵌入层；建立多卷积池层；构造完全连接的层；然后获取输出。 b使用不同大小的不同过滤器来获取一系列特征图；然后使用最大池化和并置在一起以形成特征向量。最后，使用softmax函数正则化进行分类

模型评估和绩效衡量

混淆矩阵是评价分类模型质量的可视化显示工具。矩阵的每一列代表模型预测的样本情况，矩阵的每一行代表样本的实际情况。矩阵中有四个值，其中TP表示真阳性数，TN表示真负数，fp表示假阳性数，fn表示假负数。在文献中，通常使用以下基于混淆矩阵的度量来评估预测器的性能。

其中Sn代表灵敏度，Sp代表特异性，Acc代表准确度，MCC代表马修氏系数。 ROC（接收机工作特性）曲线和ROC曲线下方的面积（AUC）通常用于评估分类器的分辨能力。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。