matlab学习--bioinformatics toolbox学习之一

标签:
matlabtoolboxbioinformatics生物信息工具箱教育 |
分类: matlab及perl学习 |
1、序列分析:以下,带有>>的为命令行!!
例如,我们要查询 RefSeq的一条序列NM_000799,
>> a = getgenbank('NM_000799','ToFile','testbank'); %利用getgenbank函数,可以设置所需信息的各种参数。
%getgenbank('accession',TOFILE',FILENAME):可以将信息写入文件;
%getgenbank('accession','SEQUENCEONLY',true);可以只提取序列信息;
%getgenbank('accession','PARTIALSEQ',SEQPARAMS);可以只提取一部分序列,SEQPARAMS为[N,M];
%getgenbank('accession','fileformat',fmt);fmt可以为genbank或者fasta。
>>ntseq =
a.Sequence
>>ntdensity(ntseq) %图示核酸序列各种核苷酸含量;可以设置窗口大小
%ntdensity(ntseq,'window',windowvalue)
>>basecount(ntseq,'chart','bar') %计算核苷酸个数,也可以图示化basecount%(ntseq,'chart','value') value可以设为bar或者pie
>> basecount(seqrcomplement(ntseq))
%它的反义链的核苷酸个数
>> codoncount(ntseq) %计算密码子使用频率
%codoncount(SeqNT, ...'Frame',
FrameValue, ...) FrameValue设置阅读框数值,1,2或者3
%codoncount(SeqNT, ...'Reverse', ReverseValue,
...)设置互补链,数值为true或者false
%codoncount(SeqNT, ...'Figure', FigureValue,
...)是否图示化,true或者false
%由于不知道阅读框(ORF)起始位置,所以有六种可能:
%写个循环:
>>for frame = 1:3
%每条链有三种可能
end
>>f = seqshoworfs(ntseq)
%显示阅读框 seqshoworfs(SeqNT,
...'Frames', FramesValue, ...)阅读框设置,1,2或者3
%seqshoworfs(SeqNT, ...'GeneticCode', GeneticCodeValue,
...)不同的生物体密码子有所不同
>>StartIndex =
find(f(1).Start ==196) %我们选第一个阅读框196位起始密码子
>>ND2Stop = f(1).Stop(StartIndex) %终止密码子
>> ND2Seq
=ntseq(196:ND2Stop); %截选这一段序列
>>codoncount (ND2Seq)
%密码子频率
%下面看一下,翻译过程:
>>ND2AASeq = nt2aa(ND2Seq);%翻译,可以设置密码子表
%SeqAA = nt2aa(..., 'GeneticCode', GeneticCodeValue, ...) 设置数值不一样,结果也不一样
>>aacount(ND2AASeq, 'chart','bar') %图示氨基酸频率
>>atomiccomp(ND2AASeq);
%原子组成
>>molweight (ND2AASeq);
%分子量大小