加载中…
个人资料
铁汉1990
铁汉1990
  • 博客等级:
  • 博客积分:0
  • 博客访问:1,334,955
  • 关注人气:828
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
正文 字体大小:

【T】每日一生信--deepsequence中的Duplicate

(2014-05-26 15:40:29)
标签:

duplicate

杂谈

分类: bioinformatic

该博文已整理到新地址:http://qinqianshan.com/ngs/trim/deep-sequence-duplicate/

我们将deep sequence中完全相同的序列统称为duplicate

 

通常这种重复会有几个来源

一,测序模板中存在一模一样的片断;

二,测序过程中PCR产生的重复;

三,信号读取过程中读到了同一pcr产物。

 

建库时的PCR扩增导致的是主要的原因,测序不会导致重复。???

 

一种是由于PCR扩增的原因导致的完全一样的reads,另一种是比对到基因组上同一位置不同的reads,但由于质量问题、测序错误、比对错误、等位基因等等,被认为是Duplicate。针对DNA来说,第一种Duplicate去除比较简单,在比对之前除去也可以节省比对时间;第二种比较复杂,对于DNARNA来说都有不去的理由,举个RNA的例子来说,cDNA的等位基因来源于父本和母本的重组,而等位基因的snp差异有可能表现出相关的生物信息(ASE),如果去掉Duplicate就会丢掉一些信息。

 

 

按照这里的讨论,对于copy number detection, SV detection, ChIP-seq, and RNA-seq都应该做duplicate removal。去除的优点是可以大量的减少计算,降低假阳性。但是去除的话也有造成数据大量损失的风险,也就是说会降低真阳性结果。有文章对相同的library做了两次测序,一次是single end, 一次paired end。比较发现,SEduplicate高达28%,而PEduplicate只有8%。当把PE的结果当成SE结果来处理时,duplicate又升至28%。还有些私下的讨论认为,实际的duplicate应该只有1%左右。这里强调了去除duplicate对于数据完整性的影响。那么为什么人们在做CN/SV/ChIP-seq/RNA-seq的时候倾向于做duplicate removal呢?这主要的理论依据是在准备library的步骤中,所有模板小片段都是由超声波震断的,而相同的mRNA分子在同一地方被打断的可能性几乎为零。另一方面,当测序深度过深时,不可避免的,同一模板会被多次测序。这时候更应该去除duplicate,可以消除饱和。对于一些由酶切产生的片段,比如clip-seq, REDseq (Restriction Enzyme digestion sequence)等,就不需要做去除duplicate。在做去除duplicate之前,首先要在genome browser中观察一下mapped好的序列,看看其duplicate的存在的程度。肉眼观察这种事情,因为没有一定的标尺,所以非常不好总结。做这件事情的唯一好处就是,看得多了,就明白什么是好的测序结果。

 

Duplicate是个老大难问题,但处理与否要看具体情况,比如做DNA样本的时候,一定会处理,而RNA样本选择不处理。接下来有一些解决方法,但是但是也会很多,接受现实吧~~~

是否去除RNA-seq中的duplicate

答案:是不能的。

因为当前去除PCR duplicate的方法,就是align到基因组或者转录组

同一个位点的reads,只保留一个。这样一来,很多数据

50%以上的reads都要去掉,其中一部分来自PCR duplicate

但是大部分还是由于高表达造成的。

理由是PCR duplicate是偶然发生的,小概率事件,不可能那么多。

所以还是不去为好。

 

所以说,博主认为并不能简单的处理Duplicate。在第二代测序中,较长的readsPE测序要比SE测序无论从组装还是从比对来说都要好,当然也包括校正Duplicate。但是(是不是很痛恨这个但是),如果你想做跟拷贝数变异有关,抱歉这种方法仍然拯救不了你,对于多倍体的物种,那就更不要说了。

接下来是建议解决方案:

1.避免微量的样品建库,单细胞测序比较蛋疼

2.PCR扩增循环保持一个绝对低的水平

3.PE建库,片段尽量长,不过solexa的长片段测序质量令人担忧。。。

4.对于DNA样本来说,将PE整长度当成SE来进行去除Duplicate

5.RNA建议不要去除Duplicate,但尽量保证前3项条件

6.实验设计,很大的问题就是实验过程中试剂、方法导致PCR扩增的偏向性,多看看文献吧。。。博主也无能为力。。。

 

 

@哈皮 因为一般来说,meta样品的测序量都不会饱和的,dup也基本木有,所以木有去

 

 

参考资料:

高山博客 http://blog.sciencenet.cn/blog-907017-699233.html

浮生终有醒博客 http://blog.csdn.net/skenoy/article/details/8658426

梦一场的博客:

http://lixuenan200806126.wap.blog.163.com/w2/blogDetail.do;jsessionid=32BFE8E4EC556BC6C8D21A0E8907A002.blog160-8010?blogId=1388288992&blogNS=UdE8S2KMSS4RO2wazh5Js5DUSon2b_YCQj66Jf5yy6tqqhZD_3etdyde_N_E4udMU5hHN7Pp3bU=&hostID=lixuenan200806@126

 

ps:

这个问题理解的还不是很透彻,上面的内容是根据别人写的整理的,正确与否还需要商定。我个人来言需要看到测序过程我才能理解吧。

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有