关于无参转录组的数据分析学习

分类: 生物信息学 |
1:无论使用合并组装还是分开组装,在组装完成建议对每个转录本进行过滤(TPM>1),参考文献为:
MacManes M D, Lacey E A. The social brain: transcriptome assembly
and characterization of the hippocampus from a social subterranean
rodent, the colonial tuco-tuco (Ctenomys sociabilis)[J]. PloS one,
2012, 7(9): e45524.
MacManes M D, Eisen M B. Characterization of the transcriptome,
nucleotide sequence polymorphism, and natural selection in the
desert adapted mouse Peromyscus eremicus[J]. PeerJ, 2014, 2:
e642.
2:SSR分析使用misa,其安装和使用说明可参见以下链接:http://www.plob.org/2012/10/04/3972.html
3:关于分别组装思路:将trinity组装的结果cat在一起,cd-hit去下重复,注意这里去的是重复不是冗余,只是简单的去掉重复序列,在去重复之前建议把所有的序列的序列名称重新命名。随后使用tgicl聚类,聚类后的结果分为两部分,一部分在asm文件夹一部分为singletons。但是singletons提供的是序列ID,需要借助tgicl的另外两个程序cdbfasta与cdbyank,然后将asm中的contigs与singletons的序列进行合并就是你的unigene前部分,然后可以借助比对进行定量按照TPM>1进行过滤,剩下的就是unigene了。
4:关于SNP的分析,
4-1:参考GATK的链接:http://gatkforums.broadinstitute.org/gatk/discussion/3891/calling-variants-in-rnaseq
4-2:使用samtools的流程,具体的过滤参数可以参考如下文献:
Van Belleghem S M, Roelofs D, Van Houdt J, et al. De novo
transcriptome assembly and SNP discovery in the wing polymorphic
salt marsh beetle Pogonus chalceus (Coleoptera, Carabidae)[J]. PloS
one, 2012, 7(8):
e42605.另外注意你使用的samtools的版本,最新的流程如下:http://www.htslib.org/workflow/#mapping_to_cram
4-3:使用最近的一个新的流程,粗略看一下还不错,文献链接:Maestre
H L, Brinza L, Marchet C, et al. De novo identification,
differential analysis and functional annotation of SNPs from
RNA-seq data in non-model species[J]. bioRxiv, 2015:
035238.网站链接:http://kissplice.prabi.fr/TWAS/,感觉要火的样子
Wit P, Pespeni M H, Ladner J T, et al. The simple fool's guide to
population genomics via RNA‐Seq: an introduction to high‐throughput
sequencing data analysis[J]. Molecular ecology resources, 2012,
12(6): 1058-1067.
5:软件RSeQC可以用评估插入片段、饱和度曲线、随机性检验,软件连接:http://rseqc.sourceforge.net/#reference
持续学习中。。。。。。。欢迎批评指正
前一篇:tgicl安装学习笔记