使用ALGA进行基因组规模的从头组装
Sylwester斯瓦特,阿图尔·拉斯考斯基(Artur Laskowski)扬·巴杜拉(Jan Badura)沃伊切赫Frohmberg,帕维尔·沃西乔夫斯基(Pawel Wojciechowski)亚历山德拉·斯威兹(Aleksandra Swiercz)玛塔·卡斯普扎克(Marta Kasprzak),雅克(Jacek Blazewicz) 作者须知 生物信息学,btab005,/10.1093/bioinformatics/btab005发布时间:1月20日抽象动机基于重叠图方法的从头基因组组装方法很少。它被认为比所谓的de Bruijn图方法能提供更准确的结果,但所需的时间更多,内存使用量也更多。
涉及重叠图模型的组装方法不能成功地计算更大的数据集是很常见的,这主要是由于计算机的内存限制。
这就是最近几十年来主要开发基于de Bruijn的组装方法的原因,该方法快速且相当准确。但是,后一种方法可能无法对更长或更多个重复的基因组进行操作,因为它们会将读取结果分解为更短的片段,并丢失了一部分信息。仍在寻找一种用于处理大数据集并使用重叠图模型的高效汇编程序。
结果
我们提出了一个新的基因组规模的从头开始基于重叠图方法的组装程序,专为短读测序数据而设计。ALGA方法结合了一些新思想,可在短时间内产生更精确的重叠群。在这些思想中,我们创建了一个稀疏但内容丰富的图,对图进行了归约,包括引用本地子图的最小生成树问题的过程,以及遍历图和同时分析到目前为止存储的重叠群。
在基因组装配中很少见,该算法几乎没有参数,用户只能设置一个可选参数。在对六个生物体进行真实实验获得的基因组规模测序数据的测试中,将ALGA与九个最先进的汇编程序进行了比较,它们的大小,覆盖范围,GC含量和重复率不同。从基因组重建的整体质量的角度来看,ALGA产生了最佳结果,这被认为是基因组覆盖率,准确性和所得序列长度之间的良好平衡。该算法是目前已完成的波兰国家基因组图谱项目中处理数据的工具之一。
可用性
可从http://alga.put.poznan.pl获得ALGA。
补充资料
补充材料可从在线生物信息学获得。