Paired-end Read

标签:
pesemppaired-endreads |
分类: NGS知识 |
目前的二代测序技术有单端测序(Single-read)和双端测序(Paired-end和Mate-pair)两种方式。Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。本期主要介绍双端测序中的
Paired-end reads 情况。
http://mmbiz.qpic.cn/mmbiz_jpg/iaRJcrq2LosibB5eh39VMAB7okZuguHyamR4xDm0bXmaN9nOictJoSaEeoJOdCboAH9Wh9LklpWVdmkLlEhIyFK8A/0?wx_fmt=jpegRead" />
PE/MP 测序也叫双向测序,是对一个长的序列测得其两端的序列。两端的序列形成"一对",中间的距离叫插入长度(insert
length)。
Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End
Module)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序。
Paired-end Reads
序列方向:→←
Fastq格式中paired-end reads的编号相同,但是其有/1或者/2的
(或1:N:0:CCGTCC和2:N:0:CCGTCC)后缀,通过这种方式来标示paired-end reads。
在拼接前,通常需要进行去除低质序列、接头等预处理,比如使用FASTX-Toolkit中的fastq_quality_filter去除低质序列,造成有些paired-end的前面序列被剔除,有些后面的序列被剔除,paired-end序列无法成对的错落出现,在做后续分析时需要将单独的reads挑出来,具体实现方法见:paired-end
reads的拼接;但其实有些预处理软件会自动保存成paired-end 和unpaired
的结果,如 Trimmomatic。
am 文件中提取fastq
reads。 bedtools 的bamToFastq工具可从sorted
后的bam文件中提取fastq序列:bamToFastq -i XX.sorted.bam -fq XX.R1.fastq -fq2
XX.R2.fastq;
参考资料:
1. Mate Pair and
Paired-End Sequencing – Illumina
2. paired-end
reads的拼接
后一篇:提取组织DNA小记