加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

关联分析(association mapping)的问题讨论

(2010-09-09 17:15:29)
标签:

杂谈

尊敬的文老师,您好!我是山东农业大学的一名研究生,实验涉及小麦关联分析。拜读您的文章,得知您是这方面的专家。我在处理数据时遇到些问题,希望您百忙之中能给于解答,不胜感激!
1 、在LD分析中,
a 、我看到很多文献所进行分析的范围多是不一样的,有的是分析各个亚群的LD,有的分析不同染色体上的LD,也有的分析小麦染色体组的,请问他们分析的目的是什么,在什么情况下做何种分析比较好呢
b 、很多文献中分析同线性(同一染色体上)的LD和非共线的LD,并将非共线的LD作为背景LD,请问这个背景LD是不是要像分析群体结构似的随机挑一些标记运行,这个95%处的LD怎么取,将其作为baseline-LD来确定其他染色体上的遗传距离吗?我看有的文献是确定75%处的LD,
c、 用来确定显著性的P值怎么确定呢 ,不同的文献采用的不同,0.05、0.01、0.001,我该选用哪个呢
d 、统计运行结果时,我要确定有多少对(位点组合)LD,平均的r*2值,显著性的LD对数比例是吗,假如我确定的p=0.01,则寻找pDiseq 这一项中小于0.01所对应标记对及它们的R*2值,是这样吗?
2、在群体结构分析中,除了STRUCTURE外看到很多的分析方法,像UPGMA、NJ聚类等,一篇文章里综合运用是为了互相验证、增强说服力吗,还是其他?
3、关联分析的数据结果该如何统计呢,如何确定显著性的P值?假如确定P=0.001,是不是要找这个性状P小于0.001所对应的那个标记呢?Heritability是不是就是这个标记对这个性状的遗传力?那运行结果中的F、Rsq-model、Rsq-marker、Residual又有什么作用呢,看到很多文献中有群体结构解释表型变异的比例R*2, 这个值是从哪求出的呢?
 祝好!
 
我的答复
 你好,对你的问题回答如下:
        (1)对各亚群(或染色体)做LD分析,无非是想了解各亚群(或不同染色体间)LD总体水平的高低差异及LD位点对数的差异。举例来说,若有一自交作物种质资源群体由若干亚群组成,LD水平高(平均的D值或r方高)的亚群可能是选择压力大、个体数目少,群体结构明显等原因造成,我个人认为这种分析意义不大,因为在做关联分析时,很少使用单个亚群做为样本,而常常是用总群体来做分析,当然如是学位论文,可以作为一个研究方向充实内容,此外如国目的就是做LD分析,而不涉及关联分析解析性状,也可作为部分研究内容。
          相比之下,不同染色体间LD水平的高低比较要有意义的多,如果某一条染色体的LD水平明显高于其他的,可以初步判断这条染色体受选择压力较大,多样性较低,在它上面可能载有较多的受人工进化选择影响较大性状的基因。做这样的比较的前提是分析的标记数目较多,每条染色体都跑了标记且覆盖均匀,最好还要知道标记间的图距(或物理距离)。
         对于不同小麦染色体组间的LD分析其目的,也大概和上面题到的目的相似,都是在探索一种基因组构成的基本信息。
      (2)将非共线的LD作为背景LD方法很好,我现在查文献很不便,baseline-LD的论文还没看见过,你可以发给我看看在回复你。
 
      (3)显著性的P值当然越小越好,0.001水平的肯定比0.05水平的位点更可靠,理论上说0.05显著即可认定关联,但实际操作过程中如果已0.05作为显著水平,可能会有太多标记关联上性状,其中可能有由于群体结构或kinship造成的伪关联标记。建议起码选择0.01或更小作为显著水平,当然亦可使用bonferroni correction 确定显著值P=0.05/N,N is number of detected markers。
 
      (4)"...则寻找pDiseq 这一项中小于0.01所对应标记对及它们的R*2值,是这样吗?",是,就是这样选的,在操作时可以按P值大小扩展排序后选得。
      (5)STRUCTURE分析理念是基于亚群是否达到哈德温伯格平衡的数学模型的聚类,而UPGMA及NJ一般是基于材料间遗传距离的聚类,有时会有相似结果产生,但我认为没有比较的意义。如果是要做关联分析,就用STRUCTURE分析群体结构好了。
 
     (6)“....假如确定P=0.001,是不是要找这个性状P小于0.001所对应的那个标记呢....",   对,就是,寻找P小于等于0.001所对应的那些标记!
 
     (7) Heritability是就是这个标记对这个性状的遗传力,F、Rsq-model、Rsq-marker、Residual,是对回归方程显著性检验的各项指标,分别指F值,模型解释率,marker的解释率,及残差。Rsq是R square及R平方的缩写。一般用”marker的解释率“较多
      
     (8) 你说有文献里”有群体结构解释表型变异的比例R*2“我不理解,一般都是标记或SNP对表型的解释率即Rsq-marker(marker 的R方)。
 
 
          先回答到这吧,把baseline-LD的文献发来我看看。
 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有