K-mer图估计基因组大小及杂合重复分析

参考liuchang,并稍作修改和整理
由K-mer图求基因组大小及杂合重复分析 ——...
1、求基因组大小。
采用jellyfish
例如:第一列表示kmer出现次数,即深度,第二列为该深度下对应的kmer数
1
2
3
4
...
1000
统计各kmer及其出现的次数(kmer frequnce),有多少片段只出现一次,有多少出现两次,有多少出现三次、、、,然后以出现次数(frequnce)为横坐标,以出现这么多次的片段总数(或该数占总片段数的百分比)为纵坐标作图。
每个kmer的期望(kmer深度) dk = (L-K+1)/G*N
(在图上就是主峰的横坐标)
L表示reads的平均读长;K表示Kmer大小,如K=17,表示Kmer大小为17bp,那么从reads得到的kmer总数 nk = (L-K+1)*N
一般来说,那些低频率的Kmer,深度<= 2X,用B表示,可能为测序错误造成的,在进行估算时要将其去除,因此,dk=((L-K+1)*N-B)/G,G表示基因组大小。
2、杂合重复分析。
https://img1.doubanio.com/view/group_topic/large/public/p29124119.jpg
只有一个主峰,该个体为纯合体或单倍体。
②
③
在在x=a处出现主峰,x=0.5a处有一个次峰,说明部分片段出现的期望值是大部分的1/2,当序列有杂合时,包含杂合位点的kmer因为分成了两部分,所以出现频率变为一半,次峰为杂合峰
④
出现两个主峰,峰高相差不大,两峰横坐标又是2倍关系,说明该个体高杂合或高重复