这期内容当中小编将会给大家带来有关如何理解基因组组装软件spades,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。

spades这款de novo基因组组装软件, 适用于细菌/真菌等小型基因组的组装,不推荐用于动植物基因组的组装。该软件主要用于illumina,IonTorrent reads的组装,也可以进行PacBio, Oxford nanopore, Sanger reads的组装。

官网如下

http://cab.spbu.ru/software/spades/

spades是一套软件,类似office办公软件系列,包含了以下5个可执行文件

  1. metaSPAdes

  2. plasmidSPAdes

  3. rnaSPAdes

  4. truSPAdes

  5. disSPAdes

metaSPAdes用于宏基因组数据的组装,plasmidSPAdes用于组装叶绿体/线粒体基因组,rnaSPAdes用于RNA-seq数据的组装,truSPAdes用于treseq barcode序列的组装,disSPAdes用于组装高杂合度的二倍体基因组。

软件的安装过程如下

wget http://cab.spbu.ru/files/release3.12.0/SPAdes-3.12.0-Linux.tar.gz
tar xzvf SPAdes-3.12.0-Linux.tar.gz
cd SPAdes-3.12.0-Linux

直接从官网下载二进制包,解压缩就可以了。在bin目录下,有很多的可执行文件

./
├── dipspades.py
├── metaspades.py -> spades.py
├── plasmidspades.py -> spades.py
├── rnaspades.py -> spades.py
├── spades-bwa
├── spades-core
├── spades-corrector-core
├── spades-dipspades-core
├── spades-gbuilder
├── spades-gmapper
├── spades-hammer
├── spades_init.py
├── spades_init.pyc
├── spades-ionhammer
├── spades-kmercount
├── spades.py
├── spades-truseq-scfcorrection
└── truspades.py

其中spades.py 就是主要的提交脚本,该软件支持多种测序类型

  1. 单端数据
    --s1参数指定单独测序的序列文件,如果有多个文库,用数字后缀加以区分,比如--s1,--s2

  2. 双端数据
    --pe1-1--pe1-2分别指定双端测序的R1端和R2端序列文件,多个文库用数字后缀区分,比如--pe2-1, --pe2-2

基本用法如下:

spades.py -k 21,33,55,77,99,127 --careful  --pe1-1 R1.fastq  --pe-2 R2.fastq  -o spades_output

输出结果目录会生成许多文件,其中scaffolds.fasta对应scaffold的结果,contig.fasta对应contig组装的结果。