【fastq】NGS分析入门：fastq文件的处理_熊朝亮

http://blog.sina.com.cn/u/3692035732

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

【fastq】NGS分析入门：fastq文件的处理

(2014-09-19 17:20:27)

标签：

佛学

拿到fastq文件的第一步是进行备份。使用gzip以及md5将文件压缩备份，并将其md5信息及实验信息写在readme文件中。

第二步去除barcodes。barcodes是在混合测序中运用到的一个区分测序样品的手段，使用不同的barcode，就可以将不同来源的样品区分出来。barcode是一段很短的oligo，比如ATCACG等。它很有可能是由一段酶切位点的一部分加上几个碱基组成。因为barcode半不是真实的序列，而是人为加上去的，所以需要把它从测序结果中去除。在去除的同时，需要你可以依据自己的实验设计，使用barcode信息将不同来源的测序结果分割开。

第三步是了解测序质量。可以使用fastqc工具。这一工具有用户界面，使用十分简单。

第四步是对fastq文件依据测序质量进行筛选。

以上这些步骤有很多可以使用的工具软件，这里推荐的是FASTX-Toolkit。

以上这些步骤都是最基础的步骤，一开始是fastq文件，最终得到的依然是fastq文件。

接下来的工作，可能会用到，那就是将fastq文件转换成unique sequence count文件。
其中一种文件是tab间格的文本，格式为：


TTGCCTGCCTATCATTTTAGTGCCTGTGAGGTGGAGATGTGAGGATCAGT    2345
GATTTGTATGAAAGTATACAACTAAAACTGCAGGTGGATCAGAGTAAGTC    2241

这种文件的好处是文件小，适合网络传输，但其缺点是完成丢失了测序质量信息。可以使用miRanalyzer提供的工具完成。

还有一种是miRdeep使用的fa格式，它的每一条序列名都是由name_uniqueNumber_xNumer这种格式组成，比如：


>PAN_123456_x969696
ATACAATCTACTGTCTTTCCT

这种格式可以使用miRDeep2中的mapper.pl来完成。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：【mapping】NGS分析入门：mapping reads到基因组

后一篇：【测序原始数据处理】NGS分析入门：测序原始数据操作

新浪BLOG意见反馈留言板　欢迎批评指正