基因序列分析的步骤和方法

标签:
基因序列生物信息学it |
分类: 大数据 |
拖鞋兰,大陆也有叫“鞋兰”的,指的是兰科植物中,它的下花瓣变形成奇特袋状花器一族的总称,中文名称的由来是源自于英文对这一族群的俗称”Lady Slipper Orchids”,当年订定这一花种中文名字的植物学者就将其直译为「拖鞋兰」,说真格的,这名称有点失之粗鄙,实在很难从字义上去意会这一群具观赏价值,又饶富趣味的兰属是甚么样子;做为商品的推广,近年来有不少有心人呼吁为其另立新词,吾人宁愿称其为「仙履兰」,即表达其传奇、趣味,又隐含高贵气质之意,同时也符合其中一属的学名。属于兰科,杓兰亚科,有四种遗产基因:凤仙花、Phragmipedium、Selenipedium和Mexipedium
Google图片搜索:Google Image Search
为了访问在美国欧洲的基因数据库肯能要使用twisted,是python2.7的标准库。
-
序列分析的步骤:
-
首先查看科学论文数据库例如,PubMed
-
从基因数据库例如GenBank中下载序列文件
-
http://biopython.org/DIST/docs/tutorial/examples/ls_orchid.fasta
-
http://biopython.org/DIST/docs/tutorial/examples/ls_orchid.gbk
-
把序列信息转换成python可用的数据结构;
-
分析阶段:翻译、转录、权计算、k最近邻居、朴素贝叶斯算法等等
>>> from Bio import SeqIO
>>>for seq_record in SeqIO.parse("ls_orchid.fasta", "fasta"):
...print seq_record.id
...print repr(seq_record.seq)
...print len(seq_record)
......
Found 94 records The last record Z78439.1 Seq('CATTGTTGAGATCACATAATAATTGATCGAGTTAATCTGGAGGATCTG TTTACT...GCC', IUPACAmbiguousDNA()) 592 The first record Z78533.1 Seq('CGTAACAAGGTTTCCGTAGGTGAA CCTGCGGAAGGATCATTGATGAGA CCGTGG...CGC', IUPACAmbiguousDNA()) 740
http://s5/middle/6c8f8ebagc963f5952f54&690
python2.7有至少四个目录作为新软件包的安装目录,标准库都放在第一个目录里;自己编译的通常放在第二个、第三个目录里;第三方软件放在第四个目录里:
-
/usr/lib/dist-packages
-
/usr/local/lib/dist-packages
-
/usr/local/lib/site-packages
-
/usr/lib/pymodules/python2.7