加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

Illumina BeadArray数据分析

(2013-06-05 15:55:22)
标签:

beadarray

illumina

bioconductor

滚珠芯片

数据分析

分类: R
1. BeadArray简介
BeadArray是Illumina公司研发一种“滚珠”芯片。芯片结构如图所示:
http://s8/bmiddle/61f013b8gde638fd75087&690BeadArray数据分析" TITLE="Illumina BeadArray数据分析" />
2. 数据类型
pix-level data:可以获得芯片原始TIFF图像。这种格式的数据信息量最大、最原始,同时格式也是最大,因此也被成为Raw data。bead-level data:可以获取每张BeadArray的每个bead的探针密度和位置信息。以上两种数据格式需要有:1. text文件(必须),主要包括bead的位置信息、编号和信号强度,信号强度已经已经做过“背景矫正(background correction)”;2. locs文件(可选),包括了所有bead的位置信息,甚至是text文件中没有的探针信息;3. bab文件(可选),包括了text文件和locs文件的信息;4. tiff图像文件(可选),是芯片扫描的图像,用户可以根据tiff文件自行选择图像处理和背景矫正算法;5. sdf文件(可选),包括每个section的位置信息;6.targets文件(可选,推荐),包括每个样本的生物学信息,通常是text文件形式;6.metrics文件(可选),每张芯片的一些总结信息。  

summary-level data:是指从GenomeStudio,BeadStudio或者Bioconductor处理以上两种数据,之后输出的数据,一般包括每个探针的强度值、标准偏差、p-value等信息。主要包括的文件:1.探针文件(必须),主要有探针信号强度、探针注释等一系列信息,通常是text文件格式。2.控制探针文件(可选,推荐),主要包括芯片中阳性探针、阴性探针、house keeping基因探针等质量控制探针信息。3.targets文件(可选,推荐)。可能一些summary-level data的类型是“归一化”后的数据或者是将“多个探针和并成一个”的数据,推荐的数据是原始的“未和并探针、未归一化”的数据。 


3. 读入和查看数据
主要使用Bioconductor进行质量控制、数据预处理和归一化。
signal-to-noise ratio(SNR):一张芯片上所有像素信号强度,95%分位数和5%分位数的比值。用于初步评价芯片图片质量。Illumina建议SNR大于10,可以结合其他质量控制数据判断芯片是否合格。
读取芯片数据beadarray包的readIllumina()函数,suggestAnnotation()可以用来自动检测芯片平台类型。读取的芯片被储存在beadLevelData类中。如果是summary-level data可以使用limmar包的read.ilmn()函数。
查看芯片数据sectionNames()函数用于查看每张芯片的名称;numBeads()用于查看每张芯片的beads数目;getBeadData()用于查看每张芯片具体探针密度。其中,beadLevelData的beadData储存了芯片探针密度数值,比如Grn数值。Grn数值是没有经过对数处理的原始数值,可以将其“对数化”用于后续处理,比如使用logGreenChannelTransform()函数。可以使用类似beadTmp[[1]][1:10, 1:10]的形式访问具体数值。
处理图像数据:使用readTIFF()函数读取芯片图像,配合illuminaBackground(),illuminaBackground()illuminaForeground()函数进行背景矫正。

4. 质量控制
boxplot():绘制盒箱图
http://s6/small/61f013b8gde687e7fdcd5&690BeadArray数据分析" TITLE="Illumina BeadArray数据分析" />

imageplot():绘制探针密度图。下图三幅图,左边为正常探针密度,中间和右边有明显的实验人为失误。
http://s3/small/61f013b8gde688d305842&690BeadArray数据分析" TITLE="Illumina BeadArray数据分析" />

outlierplot():绘制超出边界探针

http://s6/bmiddle/61f013b8gde68a7d3d8c5&690BeadArray数据分析" TITLE="Illumina BeadArray数据分析" />
expressionQCPipeline():可以在当前工作目录下生成HMTL文件,包括上述的质量控制结果。
limma包的propexpr()函数可以计算芯片阴性探针的分布,用于对照不同芯片的“异质度”。
去除超越边界探针:使用BASH()HULK()函数。

5. 整理数据(Summarizing data)
整理数据的目的是为了将多个“重复探针(replicated probes)”的数值和并成为一个数值,输入探针的均值和标准偏差(standard deviation),同时在这一步去除超越边界的探针,最终产生summary-level data。整理数据过程中,是将每一张芯片(或者一个section)分开整理,因此存在质量问题的芯片不会“污染”其他的芯片数据。
使用summary()函数,生成ExpressionSetIllumina类数据,这个类是ExpressionSet类的延伸。

6. 归一化数据
归一化数据可以参考limma包。其中,如果阴性探针已知,可以使用其中的neqc()归一化方法,阴性探针在最后返回的结果中去除。同时,也可以根据illuminaHumanv2PROBEQUALITY数据,将“Not Match”和“Bad”质量的探针去除;因为这些探针没有与之对应基因或者对应很多个不同的基因。去低质量探针,可以更好的进行差异性基因分析,避免低质量探针信号的影响。

7. 探针注释
芯片探针注释可以使用对应平台的注释包,比如illunimaHumanv3.db包注释Illumina HumanHT-12 V3.0 expression beadchip芯片。其中,对于RefSeq信息illunima平台的解释为:

http://s15/mw690/61f013b8gde8d11de23ae&690BeadArray数据分析" TITLE="Illumina BeadArray数据分析" />


参考文献:
1. Ritchie ME, Dunning MJ, Smith ML, Shi W, Lynch AG: BeadArray expression analysis using bioconductor. PLoS Comput Biol. 2011;7(12):e1002276.

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有