加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

K-mer图估计基因组大小及杂合重复分析

(2016-02-22 15:45:18)

参考liuchang,并稍作修改和整理

K-mer图求基因组大小及杂合重复分析 ——...

 

1、求基因组大小。 

采用jellyfish 统计K-mer 的深度分布情况

例如:第一列表示kmer出现次数,即深度,第二列为该深度下对应的kmer

    141046

    12267

    7924

    42520

...    ...

1000       14

统计各kmer及其出现的次数(kmer frequnce),有多少片段只出现一次,有多少出现两次,有多少出现三次、、、,然后以出现次数(frequnce)为横坐标,以出现这么多次的片段总数(或该数占总片段数的百分比)为纵坐标作图。

 

每个kmer的期望(kmer深度) dk = (L-K+1)/G*N (在图上就是主峰的横坐标

L表示reads的平均读长;K表示Kmer大小,如K=17,表示Kmer大小为17bp,那么从reads得到的kmer总数 nk = (L-K+1)*N

一般来说,那些低频率的Kmer,深度<= 2X,用B表示,可能为测序错误造成的,在进行估算时要将其去除,因此,dk=(L-K+1)*N-B/GG表示基因组大小。


2
、杂合重复分析。 
 
 

https://img1.doubanio.com/view/group_topic/large/public/p29124119.jpg

只有一个主峰,该个体为纯合体或单倍体。 

 

  https://img1.doubanio.com/view/group_topic/large/public/p29124177.jpg

 x=a处出现主峰,x=2a处有一个次峰,说明一部分片段出现的期望值是大部分的2倍,这些片段为重复片段,次峰为重复峰 

 

  https://img3.doubanio.com/view/group_topic/large/public/p29124471.jpg

在在x=a处出现主峰,x=0.5a处有一个次峰,说明部分片段出现的期望值是大部分的1/2,当序列有杂合时,包含杂合位点的kmer因为分成了两部分,所以出现频率变为一半,次峰为杂合峰 

 

https://img3.doubanio.com/view/group_topic/large/public/p29125235.jpg


出现两个主峰,峰高相差不大,两峰横坐标又是2倍关系,说明该个体高杂合或高重复

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有