加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

【fastq】NGS分析入门:fastq文件的处理

(2014-09-19 17:20:27)
标签:

佛学

拿到fastq文件的第一步是进行备份。使用gzip以及md5将文件压缩备份,并将其md5信息及实验信息写在readme文件中。

第二步去除barcodes。barcodes是在混合测序中运用到的一个区分测序样品的手段,使用不同的barcode,就可以将不同来源的样品区分出来。barcode是一段很短的oligo,比如ATCACG等。它很有可能是由一段酶切位点的一部分加上几个碱基组成。因为barcode半不是真实的序列,而是人为加上去的,所以需要把它从测序结果中去除。在去除的同时,需要你可以依据自己的实验设计,使用barcode信息将不同来源的测序结果分割开。

第三步是了解测序质量。可以使用fastqc工具。这一工具有用户界面,使用十分简单。

第四步是对fastq文件依据测序质量进行筛选。

以上这些步骤有很多可以使用的工具软件,这里推荐的是FASTX-Toolkit

以上这些步骤都是最基础的步骤,一开始是fastq文件,最终得到的依然是fastq文件。

接下来的工作,可能会用到,那就是将fastq文件转换成unique sequence count文件。
其中一种文件是tab间格的文本,格式为:


TTGCCTGCCTATCATTTTAGTGCCTGTGAGGTGGAGATGTGAGGATCAGT    2345
GATTTGTATGAAAGTATACAACTAAAACTGCAGGTGGATCAGAGTAAGTC    2241

这种文件的好处是文件小,适合网络传输,但其缺点是完成丢失了测序质量信息。可以使用miRanalyzer提供的工具完成。

还有一种是miRdeep使用的fa格式,它的每一条序列名都是由name_uniqueNumber_xNumer这种格式组成,比如:


>PAN_123456_x969696
ATACAATCTACTGTCTTTCCT

这种格式可以使用miRDeep2中的mapper.pl来完成。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有