DNA编辑距离和双序列比对

标签:
微生物基因 |
分类: 生物信息学 |
序列比对可以判定同源性,找出序列保守生物学功能的共同基序(motif)
表面上看上去的两条DNA序列没有太高的相似性,但如果两条序列分别加入一条短横线,就会发现这两条学列有很多相似之处。因为序列的差异是由突变引起的,常见的突变有替换substitution、插入insertion、删除deletion
http://s15/mw690/002o29i7zy79qyEaIb44e&690
http://s1/mw690/002o29i7zy79qyEd4xq00&690
http://s10/mw690/002o29i7zy79qyEf96969&690
http://s11/mw690/002o29i7zy79qyHUzpM7a&690
http://s11/mw690/002o29i7zy79qyHWTWOba&690
通过引入字符编辑操作(edit
operation)解决字符插入和删除问题,通过编辑操作讲一个序列转化为一个新序列。用字符“-”代表空位gap,并定义下述字符编辑操作:
match(a,a)——字符匹配
delete(a,-)删除
replace(a,b)替换
insert(-,b)插入
两个空位字符不能匹配,因为这样的操作没有意义,通过编辑操作计算的两条序列的距离成为编辑距离(edit
distance)
双序列比对就是对两条序列进行编辑操作,通过字符匹配和替换,或者插入和删除字符使两条序列长度相同,并且使其编辑距离尽可能小,是尽可能多的字符匹配
就不同类型的编辑操作定义函数w,表示代价(cost)
w(a,a)=0
w(a,b)=1(a≠b)
w(a,-)=w(-,b)=1
使用函数p来表示得分(score),
p(a,a)=1
p(a,b)=0(a≠b)
p(a,-)=w(-,b)=-1
两条序列s和t比对得分等于将s转化为t所用的所有编辑操作的得分
s和t的最优化比对是所有可能的比对中得分最高的的一个比对
s和t最小编辑距离应该是咋得分汉函数p最优时的距离
进行序列比对的目的是寻找一个得分最高的比对
全局比对是对给定序列全长进行比较多的方式
局部比对仅能获得特定序列的数据库中配对最好的亚区
直系同源orthologous gene基因是指在不同物种中有相同功能的同源基因,是在物种形成过程中形成的,
旁系同源基因paralogous gene是一个物种内的同源基因
前一篇:基因组生物信息学研究问题
后一篇:Cytoscape与网络可视化