加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

geta测试心得

(2018-05-14 11:47:11)
分类: 基因组
geta 工作原理
1 使用repeatmasker进行重复序列分析,使用repeatmodeller进行重复序列分析
2 使用rna seq数据,将转录组reads比回到基因组上,得到sam文件
3 解析sam文件,得到基因预测结果
4 使用同源蛋白,来预测基因
5 将前两者的结果整合,得到准确的基因模型,之后作为训练集,来训练augustus,得到hints。并且进行基因预测
6 整合三种方法
7 对于无证据支持的结果,进行pfam数据库过滤
8 分析可变剪切
9 使用bosco进行评估

测试物种 线虫 C.elegans
物种的基因组大小是100M

新建目录,作为测试geta用
mkdir 0.initial_data
cd 0.initial_data

下载线虫的基因组和基因注释文件
wget ftp://ftp.ensembl.org/pub/release-91/fasta/caenorhabditis_elegans/dna/Caenorhabditis_elegans.WBcel235.dna.toplevel.fa.gz

wget ftp://ftp.ensembl.org/pub/release-91/gff3/caenorhabditis_elegans/Caenorhabditis_elegans.WBcel235.91.gff3.gz

解压上述文件
gzip -d Caenorhabditis_elegans.WBcel235.dna.toplevel.fa.gz
gzip -d Caenorhabditis_elegans.WBcel235.91.gff3.gz



0

阅读 收藏 喜欢 打印举报/Report
后一篇:fastq-dump
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有