700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > Hybrid assembly with long and short reads improves discovery of gene family expansions

Hybrid assembly with long and short reads improves discovery of gene family expansions

时间:2023-07-22 00:33:24

相关推荐

Hybrid assembly with long and short reads improves discovery of gene family expansions

Hybrid assembly with long and short reads improves discovery of gene family expansions

长读和短读混合装配提高了基因家族扩展的发现

摘要

背景:

长读和短读测序技术为真核生物基因组测序项目提供了竞争优势。两者的组合可能适合于物种内基因组变异的调查。

方法:

我们开发了一种名为Alpaca的混合组装管道,它可以在20倍长读覆盖范围内工作,另外还可以在50倍长插入和50倍长插入短读覆盖范围内工作。为了防止串联重复序列的崩溃,Alpaca依赖于基于呼叫校正(base-call-corrected)的长读来形成重叠群。

结果:与其它两种组装方法相比,羊驼在水稻基因组上表现出最多的参考一致性和重复捕获。羊驼模型的三份组份中,羊驼对同源参考的一致性最高,并预测了其他组份中不存在的大量重复基因。

结论:

我们的结果表明,羊驼是一个有用的工具,以调查结构和复制数量变化内的抽样群体从头装配。

关键词:基因组装配,杂交装配流水线,串联重复序列,药用植物茎突

Introduction

串联重复基因是物种间和物种内基因组和表型变异的重要贡献者。串联重复基因簇与抗病性[2]、应激反应[3]等生物学功能相关[4,5]。在大多数生物中,串联重复序列在短读序列数据(通常为Illumina reads)构建的基因组组装中的代表性不足,打乱了对串联重复序列的分析[6 9]。

ALLPATHS-LG软件[10]通过将Illumina成对的端读数据巧妙地组合在一起,克服了短读测序的一些装配限制短插入和长插入库。应用于人类和小鼠的基因组,ALLPATHS组装器产生的组装具有更多的连续性,如contig N50和支架N50所示,比所能达到的来自其他短读序列汇编器。ALLPATHS在许多其他物种上也表现良好[11,12]。通过外显子覆盖和全基因组覆盖等措施,ALLPATHS装配体接近Sangerera装配体的质量。然而,ALLPATHS程序集仅捕获了人类和小鼠参考程序集[10]中40%的基因组片段重复。同样,水稻(Oryza sativa Nipponbare)基因组[13]的ALLPATHS装配缺失了sanger时代参考基因组的近12 Mbp,包括超过300 Kbp的注释编码序列。这些发现表明,即使是由短读序列数据构造的最高质量的草案程序集,也有可能丢失重复编码序列。

长读测序为改进基因组装配提供了巨大的潜力。PacBio平台(Pacific Biosciences, Menlo Park CA)的读取长度各不相同,但可以达到几十个千碱基[9]。单个读码的基本调用精度约为87%,而嵌合体(即错误连接的序列)可在读码[15]中发生。尽管较低的碱基调用精度和嵌合读码对基因组组装造成了挑战,但这些挑战可以通过分层方法[9]来解决,在这种方法中,读码被纠正,然后组装。

装配前校正步骤根据各个读序列与来自任何平台的其他读序列的比对来修改各个读序列。校正后的装配步骤可以使用长读的汇编程序,如Celera汇编程序[16 18]、Canu[19]、HGAP[20]、PBcR[21]、MHAP[22]或Falcon[23]。由于PacBio测序中的大多数错误都是随机的,所以只要有足够的覆盖冗余[24],PacBio读操作就可以通过与其他PacBio读操作比对来纠正。例如,通过使用100X到140X PacBio[25]的分层方法生成两个植物和一个真菌基因组的阶段性二倍体组装,并使用46X PacBio +物理地图数据[23]组装一个人类基因组。尽管具有长读程序集的潜力,但高覆盖率要求增加了成本,从而限制了适用性。

有几种混合方法使用低覆盖率PacBio来填补其他数据集合中的空白。细菌基因组的ALLPATHS管道将未经校正的长读图映射到正在进行的装配的图[26]。SSPACE-LongRead,也用于细菌基因组,将长片段映射成由短片段[27]组装而成的contigs。PBJelly[28]将未校正的长读映射到之前组装的支架序列,并执行局部组装以填补空白。在对先前存在的真核生物基因组装配体的测试中,PBJelly能够使用7倍至24倍的长读覆盖[28]来填补重叠架之间的大部分支架间隙。这些间隙填充方法在增加重叠重叠序列的同时,仍然依赖于初始装配的重叠重叠序列。因此,间隙填充可能无法纠正装配错误,如缺少节段重复或折叠的tandemly重复序列表示。长读跨基因组复制的两个拷贝,包括重复边界的唯一序列,在最初的重叠装配期间需要避免产生折叠重复。

我们开发了一种新的混合管道,名为Alpaca (ALLPATHS和Celera Assembler),它利用现有的工具来装配Illumina短插入配对短读(SIPE)、Illumina长插入配对短读(LIPE)和PacBio非配对长读。不像其他方法,使用Illumina或PacBio测序仅为某些有限阶段的组装,羊驼使用数据的全部能力在整个装配过程:

1) contig结构主要是由长读组成,短读纠正长读的错误,

2)通过Illumina SIPE reads中高度精确的base调用,将一致性精度最大化

3)通过Illumina LIPE增强支架结构,在类似PacBio长读的尺度上提供高覆盖连通性。为了使管道成为非模型系统和调查种内结构变化的实用工具,我们以低覆盖率、长时间的数据为目标。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。