标签:
duplicatesfastuniqpairedreads |
分类: filter/assembly/bin(classify |
该博文的更新已整理到新地址:http://qinqianshan.com/ngs/trim/fastuniq/
下载地址:http://sourceforge.net/projects/fastuniq/
背景介绍:
,所以paired reads的数目在匹配到contigs上时对scaffolding的结果影响很大,如果有duplicates两种错误将会被引入:假阳性(因为大量的俩俩contigs之间的链接而导致contigs被错误的连接)和假阴性(因为大量有冲突的链接而导致contigs错误的链接)。
已有的方法是基于比对的策略来删除duplicates【2】,paired reads先是被比对上参考序列上,利用短序列比对工具(bowtie,crossbow,bwa),那些匹配的位置一模一样的就认为是duplicates,然后这些duplicates被这些工具给删掉(Rmdup in the SAMtools package [18], MarkDuplicates in the Picard toolkit [19], and SEAL).但是这个方法需要完整的基因组作为参考序列,而大多数情况下,我们是没有可用的参考基因组序列。
更重要的是,这种paired reads 比对的方法可能被个体基因组之间的差异所影响(例如large scale structural variations [21], copynumber variations [22], small insertion/deletion variations [23],and single-nucleotide polymorphisms (SNPs) [3]),同时也被穿插在整个基因组中的重复元素(例如Alu elements in primate genomes [24] and Mu transposons in plant genomes [25])所影响。
不依赖参考序列的去除duplicates的从头(de novo)的方法来删除成对reads的方法被需要。一些这方面的工具( fastx_collapser in the FASTX-Toolkit[26] and Fulcrum [27])不是针对paired reads的。
软件的思路:
输入数据---排序---发现duplicates---获得unique read pairs
详见文献
安装:
=========================================================================
1,确保你安装了GCC(GNU Compiler Collection,GNU编译器套裝)(Version 4.0 or
2,下载,解压缩
3,cd ~/ FastUniq/source
打开"makefile"文件,到"GCC_OPTION"来设置参数,你可以根据的需要来设置
4,终端输入make
5,修改环境变量
卸载:
==========================================================================
删掉"source"中的"fastuniq"文件即可
用法:
fastuniq -i input_list.txt -o aa -p aaa
input_R1_1.fastq
input_R1_2.fastq
input_R2_1.fastq
input_R2_2.fastq
FastUniq参数:
==========================================================================
-i : 输入FSATQ 格式的成对序列Maximum 1000 pairs ?
合并两个fastq文件
/sam/velvet/contrib/shuffleSequences_fasta/shuffleSequences_fastq.pl output_forward_paired.fq output_reverse_paired.fq paired.fq
-t : 输出文件的格式
-o : The first output file [FILE OUT]
-p : The second output file [FILE OUT]
-c : Types of sequence descriptions for output [0/1]
参考资料:
Ps: 1,其实用这个只是为了让我的宏基因组的reads少一些,数据量大了,后面的拼接真实问题啊
2,PCR Duplicates是实验误差,去除后的coverage才是更接近真实的结果,使用fastquniq只能去除一部分PCR duplicates,去除PCR Duplicates,对拼接结果可能影响还不小的。拼接结果会更加准确。如果两对reads的序列完全一模一样,则认为这两对reads是PCR duplicates,fastuniq就是这样来去除PCR Duplicates的(陈博士给的经验之谈)