700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > 转录本组装与定量工具—StringTie使用介绍!

转录本组装与定量工具—StringTie使用介绍!

时间:2022-12-17 15:47:14

相关推荐

转录本组装与定量工具—StringTie使用介绍!

StringTie 是用于 RNA-seq 的转录本组装和定量软件,StringTie 可以看做是cufflinks软件的升级版本,其功能和Cufflinks是一样的,包括下面两个主要功能:转录本组装和定量;相比Cuffinks, 其运行速度更快。该软件的官网如下:https://ccb.jhu.edu/software/stringtie/index.shtml。
常用参数及描述(下图可左右拖动)

常用的参数及描述-o[<path/>]<out.gtf>#设置StringTie组装转录本的输出GTF文件的路径和文件名。此处可指定完整路径,在这种情况下,将根据需要创建目录。默认情况下,StringTie将GTF写入标准输出。-p<int>#指定组装转录本的线程数(CPU)。默认值是1-G<ref_ann.gff>#使用参考注释基因文件指导组装过程,格式GTF/GFF3。输出文件中既包含已知表达的转录本,也包含新的转录本。选项-B,-b,-e,-C需要此选项(详情如下)-l<label>#将<label>设置为输出转录本名称的前缀。默认:STRG-A<gene_abund.tab>#输出基因丰度的文件(制表符分隔格式)-C<cov_refs.gtf>#输出所有转录本对应的reads覆盖度的文件,此处的转录本是指参考注释基因文件中提供的转录本。(需要参数-G).-B#应用该选项,则会输出Ballgown输入表文件(* .ctab),其中包含用-G选项给出的参考转录本的覆盖率数据。(有关这些文件的说明,请参阅Ballgown文档。)如果选项-o 给出输出转录文件的完整路径,则* .ctab文件与输出GTF文件在相同的目录下。-b<path>#指定*.ctab 文件的输出路径, 而非由-o选项指定的目录。注意:建议在使用-B/-b选项中同时使用-e选项,除非StringTie GTF输出文件中仍需要新的转录本,-B和-b选一个使用就行。-e#限制reads比对的处理,仅估计和输出与用-G选项给出的参考转录本匹配的组装转录本。使用该选项,则会跳过处理与参考转录本不匹配的组装转录本,这将大大的提升了处理速度。--merge#转录本合并模式。在合并模式下,StringTie将所有样品的GTF/GFF文件列表作为输入,并将这些转录本合并/组装成非冗余的转录本集合。这种模式被用于新的差异分析流程中,用以生成一个跨多个RNA-Seq样品的全局的、统一的转录本。如果提供了-G选项(参考注释基因组文件),则StringTie将从输入的GTF文件中将参考转录本组装到transfrags中。(个人理解:transfrags可能指的是拼接成更大的转录本片段,tanscript fragments)。在此模式下可以使用以下附加选项:-G<guide_gff>#参考注释基因组文件(GTF/GFF3)-o<out_gtf>#指定输出合并的GTF文件的路径和名称(默认值:标准输出)-m<min_len>#合并文件中,指定允许最小输入转录本的长度(默认值:50)-c<min_cov>#合并文件中,指定允许最低输入转录本的覆盖度(默认值:0)-F<min_fpkm>#合并文件中,指定允许最低输入转录本的FPKM值(默认值:0)-T<min_tpm>#合并文件中,指定允许最低输入转录本的TPM值(默认值:0)-f<min_iso>#minimumisoformfraction(默认值:0.01)-i#合并后,保留含retainedintrons的转录本(默认值:除非有强有力的证据,否则不予保留)-l<label>#输出转录本的名称前缀(默认值:MSTRG)

转录本组装

输入文档是BAM格式的比对结果文档,该文档必需经过排序,排序的方式基因组位置。这些文档可以是来源于Tophat比对的结果文档,也可以是hisat2的结果文档经过转换和排序的文档(使用samtools)。

stringtie-p8-Ghg19.gtf-oCK-1.gtfCK-1.bam

在组装的转录本中,也会给出定量的结果,对于组装的新转录本和基因,默认采用STRG加数字编号进行区分,示例如下:

gene_id"STRG.1"transcript_id"STRG.1.1"

单个样本组装完成后,会合并所有样本的转录本组装结果,得到一个非冗余的转录本集合,用法如下:

stringtie--merge-oassembly.gtf-p20-Ghg19.gtfCK-1.gtfCK-2.gtf

在合并的非冗余转录本中,采用MSTRG加数字编号对基因和转录本进行编号,示例如下:

gene_id"MSTRG.2"transcript_id"MSTRG.2.2"

定量如果StringTie使用-A <gene_abund.tab>选项运行,则返回包含基因丰度的文件。

stringtie-p8-Ghg19.gtf-ACK-1.tab-oCK-1.gtfCK-1.bam

tab文件如下:

GeneIDGeneNameReferenceStrandStartEndCoverageFPKMTPMNM_000451SHOXchrX+6243446468230.0000000.0000000.000000NM_006883SHOXchrX+6243446594110.0000000.0000000.000000

好了今天先介绍到这里,你也动手去试试吧!

延伸阅读:

1.植物代谢通路注释+基因表达可视化神器--Mapman

2.收藏贴-基因/蛋白功能注释、富集分析在线工具详解

3.如何下载基因组及查找基因

4.CDS、cDNA、ORF等等傻傻分不清

5.qRT-PCR相对定量计算详解

6.绘一棵超酷炫的系统发育树!

7.1-4月100+篇基因家族分析文献信息免费领取

8.100个接收基因家族分析类文献的期刊汇总!速领!

9.转录组文章到底有多难发?一文说明白!

10.生物信息软件安装解决方案-docker虚拟化技术

11.充电课-(适合小白自学生信)《Linux生信分析环境搭建Bio-linux》

12.充电课-限时免费领取《癌症TCGA-文章套路解析》

13.充电课-免费领取《illumina测序原理及Fastq文件解读》视频课程

14.充电课-限时免费领取《基因家族分析详解课程》

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。