700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > 叶绿体基因组注释-Geseq篇

叶绿体基因组注释-Geseq篇

时间:2023-11-02 15:06:23

相关推荐

叶绿体基因组注释-Geseq篇

叶绿体基因组注释

基因组注释和基因组组装是叶绿体分析中十分重要的两个工作,是所有后续分析的基础。所以一定要拿到正确的注释文件之后再开始做分析。

目前常用的软件有Geseq、PGA、CPGAVAS2,没使用过CPGAVAS2,因此本篇文章先主要讨论一下Geseq,后续在讨论下PGA注释。

Geseq

需要准备的文件有上一步组装得到的fasta文件,和下载的参考文件。

然后点击Submit 等待两分钟即可得到Geseq注释结果

下载并以文本方式打开该genbank文件。

Gesq注释结果 vs NCBI结果

Geseq
NCBI

相比于NCBI, Geseq注释结果中多了/info、/annotator、exon 和 intron等信息。 我比较喜欢看NCBI格式,所以一般都会用正则表达式把这部分信息删除。

Geseq注释问题

如上图ndhB基因的注释,Geseq会注释出来两个CDS,原因是第一个外显子的结尾143112和第二个外显子的开始143767处的碱基相同 都是"G"。因此软件无法确定哪个是对的,所以给出了两个CDS的结果。这样就需要我们手动进行验证哪个是对的。一般CDS中外显子的长度都是3的倍数,所以可以根据这个做判断。

比较特殊的基因有两类

1反式剪切基因rps12RNA编辑基因如psbL等。

rps12基因

rps12基因在重复区各有两个外显子,而又共用LSC中的一个外显子。注释的时候需要加以调整。也要在rps12基因中加入/trans_splicing

RNA编辑基因

psbL等基因经常会出现非*TG作为起始密码序列如本次注释中其为ACG,这中情况需要在CDS里面加上/exception=“RNA editing”

较正完成之后,验证注释结果的准确性,可以自己编写脚本,比如比较好用的biopython/bioperl包等或者使用Geseq进行检查。比如找出CDS长度不是3的倍数的基因或序列中间有终止密码子的基因等

写在结尾

叶绿体基因组组装和注释是所有分析的基础,一定要在保证这两个文件正确的情况下,再进行后续的分析。公司分析的结果也不一定是准确的,拿到公司的结果后,我们也要自己分析一遍。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。