【测序原始数据处理】NGS分析入门:测序原始数据操作
(2014-09-19 17:23:43)
标签:
军事 |
我们在完成了测序之后的第一步工具就是把测序的结果拷贝到指定的地方去,有很多种方法,比如:
-
使用scp命令进行拷贝。其格式为:
scp [options] username1@source_host:directory1/filename1 username2@destination_host:directory2/filename2
- 使用ftp,http, smb工具进行拷贝。比如mac os中的Fetch工具。这些工具多半有图型化界面,比如容易掌握。也可以使用命令行比如wget进行拷贝。
- 从GEO/UCSC等在线资源下载数据。
我们需要知道的几种数据源:
- 美国的GEO或者SRA
- 欧洲的ArrayExpress或者ENA
- 日本的DDBJ
一般来说,原始的测序结果都会保存在fastq文件中。当我们下载到一个sra文件时,需要把它转换成fastq,需要用到工具:fastq-dump。这个是SRA toolkit当中的一个工具。
一个标准的fastq文件其格式如下:
其文件第一行为序列名,第二行为序列,第三行是序列终止标记,第四行为序列相对应每个位置的测序质量。
对于Illumina测序的序列名,比如:
@HWUSI-EAS100R:6:73:941:1973#0/1
它用”:”分格,分别代表下列信息:
HWUSI-EAS100R | the unique instrument name |
---|---|
6 | flowcell lane |
73 | tile number within the flowcell lane |
941 | ‘x’-coordinate of the cluster within the tile |
1973 | ‘y’-coordinate of the cluster within the tile |
#0 | index number for a multiplexed sample (0 for no indexing) |
/1 |
the member of a pair, /1 or /2 |
而1.8版本的会变成
@EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG
,其含义为:
EAS139 | the unique instrument name |
---|---|
136 | the run id |
FC706VJ | the flowcell id |
2 | flowcell lane |
2104 | tile number within the flowcell lane |
15343 | ‘x’-coordinate of the cluster within the tile |
197393 | ‘y’-coordinate of the cluster within the tile |
1 |
the member of a pair, 1 or 2 |
Y | Y if the read fails filter (read is bad), N otherwise |
18 | 0 when none of the control bits are on, otherwise it is an even number |
ATCACG | index sequence |
在这里需要特别指出的是字母Y/N在1.8中的作用,它表明了read的结果是否可以接受。可以通过这个标记对fastq文件进行筛选。
对于记录质量的那一行,其记录是的phred质量:phred=-10*log(p/(1-p), base=10)。值越大表明其质量越好。当p-value等于0.05时,phred值应该是13左右。但是我们看到的那一行,并不是数字。它其实是数字,只是在广本中把它当成一个字符显示了出来。但是不同的fastq文件,对质量的记录是有区别的,
有时候我们拿到的数据是经过压缩的,我们需要了解两个工具,解压/压缩工具,以及md5工具。通常的工具有tar, gzip/gunzip, zip/unzip等等。md5的工具就是md5。它的作用在于检查文件的传输的过程中是否产生了变化,如果md5的结果不一致,表明数据可能有所损失。对于这些工具的使用,请google。