700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > ctP2ISP:使用卷积和数据增强的转换器预测蛋白质-蛋白质相互作用位点

ctP2ISP:使用卷积和数据增强的转换器预测蛋白质-蛋白质相互作用位点

时间:2024-06-17 20:05:56

相关推荐

ctP2ISP:使用卷积和数据增强的转换器预测蛋白质-蛋白质相互作用位点

Title:ctP2ISP: Protein–Protein Interaction Sites Prediction Using Convolution and Transformer with Data Augmentation

期刊:IEEE-ACM Transactions on Computational Biology and Bioinformatics

代码和数据集:GitHub - lennylv/ctP2ISP: The source code and datasets of paper 'ctP2ISP: Protein-protein interaction sites prediction using convolution and transformer with data augmentation'

一、摘要

蛋白质-蛋白质相互作用是许多细胞生物学过程的基础,如细胞组织、信号转导和免疫反应。识别蛋白质-蛋白质相互作用位点对于理解各种生物过程、疾病发展和药物设计的机制至关重要。然而,做出准确预测仍然是一项具有挑战性的任务,因为少量的训练数据和严重的不平衡分类降低了计算方法的性能。我们设计了一个名为ctP2ISP的深度学习方法,以提高蛋白质-蛋白质相互作用位点的预测。ctP2ISP采用卷积和变换来提取信息和增强信息感知,以便可以挖掘语义特征来识别蛋白质-蛋白质相互作用位点。设计了具有不同样本权重的加权损失函数,以抑制模型对多类别预测的偏好。为了有效地重用训练集中的信息,应用了具有改进的面向样本的采样策略的数据扩充的预处理。在六个公共数据集上,对照当前最先进的方法对训练的ctP2ISP进行评估。结果表明,ctP2ISP在平衡指标上优于所有其他竞争方法:F1、MCC和AUPRC。特别是,我们对与病毒相关的开放测试的预测也可能与生物学的见解一致。

二、方法与数据集

所描述的问题:从计算的角度来看,ctP2ISP可以描述为以下问题:给定蛋白质的氨基酸序列s,找出M(s)映射到L的最佳M,L是标记s的每个氨基酸的0/1标志序列,用1表示结合残基,否则用0表示。要将机器学习框架应用于ctP2ISP,应该编译训练集,从已知的蛋白质复合物结构中收集s及其对应的L。通过使用机器学习技术对M进行适当的设计,可以训练最终的M来预测训练集之外的蛋白质的Ls。

数据集:通用训练和测试集

6个公共数据集:Dset_186、Dset_72、Dset_164、Dset_448、Dset_355和Dset_70

测试集:Tset_9982。随机选择Tset_9982的九分之八(8872)和九分之一(1110)分别作为我们的训练集和验证集。

流程图

三、结果

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。