geta测试心得
(2018-05-14 11:47:11)| 分类: 基因组 |
geta 工作原理
1 使用repeatmasker进行重复序列分析,使用repeatmodeller进行重复序列分析
2 使用rna seq数据,将转录组reads比回到基因组上,得到sam文件
3 解析sam文件,得到基因预测结果
4 使用同源蛋白,来预测基因
5
将前两者的结果整合,得到准确的基因模型,之后作为训练集,来训练augustus,得到hints。并且进行基因预测
6 整合三种方法
7 对于无证据支持的结果,进行pfam数据库过滤
8 分析可变剪切
9 使用bosco进行评估
测试物种 线虫 C.elegans
物种的基因组大小是100M
新建目录,作为测试geta用
mkdir 0.initial_data
cd 0.initial_data
下载线虫的基因组和基因注释文件
wget ftp://ftp.ensembl.org/pub/release-91/fasta/caenorhabditis_elegans/dna/Caenorhabditis_elegans.WBcel235.dna.toplevel.fa.gz
wget ftp://ftp.ensembl.org/pub/release-91/gff3/caenorhabditis_elegans/Caenorhabditis_elegans.WBcel235.91.gff3.gz
解压上述文件
gzip -d Caenorhabditis_elegans.WBcel235.dna.toplevel.fa.gz
gzip -d Caenorhabditis_elegans.WBcel235.91.gff3.gz
后一篇:fastq-dump

加载中…