加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

基因序列分析的步骤和方法

(2012-09-11 10:32:36)
标签:

基因序列

生物信息学

it

分类: 大数据

拖鞋兰,大陆也有叫“鞋兰”的,指的是兰科植物中,它的下花瓣变形成奇特袋状花器一族的总称,中文名称的由来是源自于英文对这一族群的俗称”Lady Slipper Orchids”,当年订定这一花种中文名字的植物学者就将其直译为「拖鞋兰」,说真格的,这名称有点失之粗鄙,实在很难从字义上去意会这一群具观赏价值,又饶富趣味的兰属是甚么样子;做为商品的推广,近年来有不少有心人呼吁为其另立新词,吾人宁愿称其为「仙履兰」,即表达其传奇、趣味,又隐含高贵气质之意,同时也符合其中一属的学名。属于兰科,杓兰亚科,有四种遗产基因:凤仙花、PhragmipediumSelenipediumMexipedium

Google图片搜索:Google Image Search

为了访问在美国欧洲的基因数据库肯能要使用twisted,是python2.7的标准库。

-

序列分析的步骤:

  1. 首先查看科学论文数据库例如,PubMed

  2. 从基因数据库例如GenBank中下载序列文件

  1. 把序列信息转换成python可用的数据结构;

  2. 分析阶段:翻译、转录、权计算、k最近邻居、朴素贝叶斯算法等等

>>> from Bio import SeqIO 
>>> for seq_record in SeqIO.parse("ls_orchid.fasta", "fasta"): 
...           print seq_record.id 
...           print repr(seq_record.seq)
...           print len(seq_record) 
...... 
Found 94 records The last record Z78439.1 Seq('CATTGTTGAGATCACATAATAATTGATCGAGTTAATCTGGAGGATCTGTTTACT...GCC', IUPACAmbiguousDNA()) 592 The first record Z78533.1 Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGG...CGC', IUPACAmbiguousDNA()) 740

http://s5/middle/6c8f8ebagc963f5952f54&690

python2.7有至少四个目录作为新软件包的安装目录,标准库都放在第一个目录里;自己编译的通常放在第二个、第三个目录里;第三方软件放在第四个目录里:

  1. /usr/lib/dist-packages

  2. /usr/local/lib/dist-packages

  3. /usr/local/lib/site-packages

  4. /usr/lib/pymodules/python2.7

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有