三代基因组组装学习笔记一(文献阅读)
| 分类: 文献推荐 |
l
l
l
# The length cutoff used for seed reads used for initial mapping
length_cutoff = 6000
# The length cutoff used for seed reads usef for pre-assembly
length_cutoff_pr = 12000
l
拼接使用FALCON
and Quiver 3,128 contigs with a contig N50 length of 17.9
Mb,平均测序长度为7K.结合来自软件官方的建议:length_cutoff这个值可以设置的小一点例如接近平均长度,length_cutoff_pr这个值可以进行多多尝试几个值。在这篇文章中length_cutoff选择的是10KB。如下图:Extended
Data Figure 2
pa_concurrent_jobs控制的是一次向集群提交的任务数目。
pa_DBsplit_option对于大的基因组for
large genomes, you should
use -s400 (400Mb sequence per
block), 这个数值增大可以减少任务数,一般的可以设置为200,或者50.
pa_HPCdaligner_option控制的参数原先是dal已经被B取代,
--max_diff 一般设置为平均覆盖度的2倍过滤那些两端差异覆盖大较大的reads因为这可能是重复序列
--min_cov一般设置为5是安全的
--max_cov一般为平均测序深度的3倍
l
如果拼接的基因组较小,HGAP的组装结果要好于Falcon.
三代测序可承诺指标:
|
全三代拼接 |
简单基因组de novo |
复杂基因组de novo |
|
测序策略与深度 |
三代(60×)+10x Genomics/BioNano/ChiCago |
三代(80×)+10X Genomics/BioNano/ChiCago |
|
承诺指标 |
contig N50≥1 Mb |
contig N50≥500 Kb |
l
本文共测序三个物种平均测序深度为:86x, 47x and 54x。本文分别使用了2种拼接方法:Falcon (v0.3.0) and PBcR (with Celera Assembler 8.3rc2) 。
首先对三代数据进行质控使用SMRT Analysis software (v2.3) 删除长度小于500或者是quality (QV) 小于80的subread.文章中使用的一些脚本:https://github.com/wen-biao/OM-HiC-scaffolding
l
评估基因组拼接的完整性使用的是BUSCO
l
l
l
l
藜麦P6_C4试剂测序,数据平均长度12,444bp,平均软件使用的是(https://github.com/PacificBiosciences/smrtmake)
,read过滤使用的参数是filter='MinReadScore=0.80,MinSRL=500,MinRL=100'
,拼接软件使用的是Celera
Assembler,polish最后使用的是quiver。

加载中…