流行病学队列研究之精要（原创）_医笑而过

http://blog.sina.com.cn/u/1288762221

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

流行病学队列研究之精要（原创）

(2007-05-16 14:26:45)

标签：

流行病学

原创笔记

分类：医药卫生

参考教材：

声明：这一系列《精要》都是本人全面学习《流行病学》的笔记，字字页页全阅读的精要笔记，由于编辑排版等方面原因，有与教材不一致的地方，请参考教材。如果考试参考用，请根据您的考试重点，有选择的阅读！

第四章 队列研究

第一节概述

一、概念

队列研究(cohort study)：是将一个范围明确的人群按是否暴露于某可疑因素及其暴露程度分为不同的亚组，追踪其各自的结局，比较不同亚组之间结局的差异，从而判定暴露因子与结局之间有无因果关联及关联大小的一种观察性研究方法。这里观察的结局主要是与暴露因子可能有关的结局。又称前瞻性研究(prospective study)、发生率研究(incidence study)、随访研究(follow-up study)及纵向研究(longitudinal study)。

暴露(exposure)：是指研究对象接触过某种待研究的物质(如重金属)、具备某种待研究的特征(如年龄、性别及遗传等)或行为(如吸烟)。

队列：表示一个特定的研究人群组。根据特定条件的不同，一般有两种情况：一是指特定时期内出生的一组人群，叫出生队列(birth cohort)；另一种是泛指具有某种共同暴露或特征的一组人群，一般即称之为队列或暴露队列。根据人群进出队列的时间不同，队列又可分为两种：一种叫固定队列(fixed cohort)，是指人群都在某一固定时间或一个短时期之内进入队列，之后对他们进行随访观察，直至观察期终止，成员没有无故退出，也不再加入新的成员，即在观察期内保持队列的相对固定。另一种叫动态人群(dynamic population)，是相对固定队列而言的，即在某队列确定之后，原有队列成员可以不断退出，新的观察对象可以随时加入。

危险因素(risk factor)，又称为危险因子，泛指能引起某特定结局(outcome)(如疾病)发生，或使其发生的概率增加的因子，包括个人行为、生活方式、环境和遗传等多方面的因素。

二、基本原理：

在一个特定人群中选择所需的研究对象，根据目前或过去某个时期是否暴露于某个待研究的危险因素，或其不同的暴露水平而将研究对象分成不同的组，如暴露组和非暴露组，高剂量暴露组和低剂量暴露组等，随访观察一段时间，检查并登记各组人群待研究的预期结局的发生情况(如疾病、死亡、或其他健康状况)，比较各组结局的发生率，从而评价和检验危险因素与结局的关系。

在队列研究中，所选研究对象必须是在开始时没有出现研究结局，但有可能出现该结局(如疾病)的人群。暴露组与非暴露组必须有可比性，非暴露组应该是除了未暴露于某因素之外，其余各方面都尽可能与暴露组相同的一组人群。根据基本原理，可以分析出一些基本特点：1) 属于观察法2) 设立对照组3) 由“因”及“果” 4) 能确证暴露与结局的因果联系。

三、研究目的

1. 检验病因假设：一次队列研究可以只检验一种暴露与一种疾病之间的因果关联，也可同时检验一种暴露与多种结果之间的关联。2. 评价预防效果：有些暴露有预防某结局发生的效应，即出现预防效果。如戒烟可减少吸烟者肺癌发生的危险等，这里的预防措施不是人为给予的，而是研究对象自发行为。这种现象被称为“人群的自然实验”。3. 研究疾病自然史：队列研究可以观察人群从暴露于某因素后，疾病逐渐发生、发展，直至结局的全过程，不但可了解个体疾病的全部自然史，而且可了解全部人群疾病的发展过程。

四、研究类型

队列研究依据研究对象进入队列时间及终止观察的时间不同，分为：

(一)前瞻性(prospective)队列研究：研究对象的分组是根据研究开始时(现时)研究对象的暴露状况而定的。此时，研究的结局还没有出现，还需要前瞻观察一段时间才能得到，称为即时性(concurrent)或前瞻性队列研究。优点：资料的偏倚较小，结果可信；缺点：观察的人群样本大，观察时间长、花费大，影响其可行性。

(二)历史性(historical)队列研究：研究对象的分组是根据研究开始时研究者已掌握的有关研究对象在过去某个时点的暴露状况的历史材料作出的；研究开始时研究的结局已经出现，其资料可从历史资料中获得，不需要前瞻性观察，称为非即时性(non-concurrent)或历史性队列研究。优点：省时、省力、出结果快。缺点：历史资料内容上未必符合要求。

(三)双向性(ambispective)队列研究：也称混和型队列研究，即在历史性队列研究之后，继续前瞻性观察一段时间，它将前瞻性队列研究与历史性队列研究结合起来，兼有二类的优点，一定程度上弥补了相互的不足。

不同研究类型的选用原则：

前瞻性队列研究：①应有明确的检验假设，检验的因素必须找准；②所研究疾病的发病率或死亡率应较高，如不低于5‰；③应明确规定暴露因素，并且应有把握获得观察人群的暴露资料；④应明确规定结局变量，如发病或死亡，并且要有确定结局的简便而可靠的手段；⑤应有把握获得足够的观察人群，并将其清楚地分成暴露组与非暴露组；⑥大部分观察人群应能被长期随访下去，并取得完整可靠的资料。应有足够的人、财、物力支持该项工作。

历史性队列研究：除考虑前述的①至⑤点外，还应考虑是否有足够数量的完整可靠的在过去某段时间内有关研究对象的暴露和结局的历史记录或档案材料。

双向性队列研究：当基本具备进行历史性队列研究的条件下，如果从暴露到现在的观察时间还不能满足研究的要求，还需继续前瞻性观察一段时间时，则选用该研究。

第二节设计与实施

一、确定研究因素：常称为暴露因素或暴露变量，通常是在描述性研究和病例对照研究的基础上确定的。在研究中要考虑如何选择、规定和测量暴露因素。暴露的测量应采用敏感、精确、简单和可靠的方法。

二、确定研究结局：结局变量(outcome variable)也叫结果变量，简称为结局，指随访观察中将出现的预期结果事件，即研究者希望追踪观察的事件，是观察的自然终点，不是观察期的终止。既可是终极的结果(如发病或死亡)，也可是中间结局(如分子或血清的变化)。除研究结局，可同时收集多种可能与暴露有关的结局。

三、确定研究现场：除要求有足够数量的符合条件的研究对象，还要求当地领导重视，群众理解和支持。

四、确定研究人群：包括暴露组和对照组：

1. 暴露人群的选择：暴露人群即对待研究因素有暴露的人群。有四种选择：(1)职业人群：研究某种可疑的职业暴露因素与疾病或健康的关系的选择；另外，由于职业人群有关暴露与疾病的历史记录较为全面、真实，故常做历史性队列研究。(2)特殊暴露人群：研究某些罕见的特殊暴露的唯一选择，如选择原子弹爆炸的受害者，研究射线与白血病的关系。某些职业暴露的危险一旦认识到了，大都采取防护措施以减少暴露，所以不宜前瞻性队列研究，常用历史性队列研究。(3)一般人群：即某行政区域或地理区域范围内的全体人群：①着眼于一般人群及今后在一般人群中的防治；②所研究的因素和疾病都是一般人群中常见的，特别是在研究一般人群的生活习惯或环境因素时。(4)有组织的人群团体：一般人群的特殊形式，如医学会会员，工会会员等。目的是利用他们的组织系统，便于有效地收集随访资料。职业和经历往往相同，可增加其可比性。

2、对照人群的选择：基本要求是尽可能与暴露组的可比性，即对照人群除未暴露于所研究的因素外，其它各种影响因素或人群特征(年龄、性别、民族、职业、文化程度等)都应尽可能地与暴露组相同。 (1)内对照：即先选择一组研究人群，将其中暴露于所研究因素的对象作为暴露组，其余即为非暴露组；(2)特设对照，也称外对照，选择职业人群或特殊暴露人群作为暴露人群时，在该人群之外去找对照组；(3) 总人口对照：利用整个地区的现成的发病或死亡统计资料，对照中可能包含有暴露人群；(4) 多重对照：或叫多种对照，即用上述两种或两种以上的形式选择的人群同时作对照。

五、确定样本大小：影响样本含量的几个因素1. 一般人群(对照人群)中所研究疾病的发病率p₀越接近0.5，样本量越大；2. 暴露组与对照组人群发病率之差（d=p₁－p₀）d值越大，样本量越小；3. 要求的显著性水平，即检验假设时的第Ⅰ类错误(假阳性错误)α值。α值越小，样本量越大。4. 效力：效力(power)又称把握度(1-β)，β为检验假设时出现第Ⅱ类错误的概率，而1-β为检验假设时能够避免假阴性的能力。若要求效力(1-β)越大，即β值越小，则所需样本量越大。

六、基线资料的收集：收集每个研究对象在研究开始时的基本情况，包括待研究的暴露因素的暴露状况，疾病与健康状况，年龄、性别、职业、婚姻等个人状况，家庭环境、个人生活习惯及家族疾病史等。获取方式：①查阅医院、工厂、单位及个人健康保险的记录或档案；②访问研究对象或其它能够提供信息的人；③对研究对象进行体格检查和实验室检查；④环境调查与检测。

七、随访：1、随访方法包括对研究对象的直接面对面访问、电话访问、自填问卷、定期体检，环境与疾病的监测等资料的收集等，应根据随访内容、随访对象、投入研究人力、物力等条件来考虑。在整个随访过程中，随访方法应保持不变。2、观察终点 (end-point)就是指研究对象出现了预期的结果，达到了这个观察终点，就不再对该研究对象继续随访。3、观察的终止时间是指整个研究工作截止的时间，也即预期可以得到结果的时间。4、随访的间隔与次数将视研究结局的变化速度、研究的人力、物力等条件而定。一般慢性病的随访间隔期定为1～2年。5、随访者：随访调查员必须进行培训。研究者可参加随访，但最好不亲自参与。

八、质量控制：1、调查员的选择：调查员应有严谨作风和科学态度，品质诚实可靠。另外，调查员的年龄、性别、种族、社会经济地位等与研究对象相匹配，有调查的专业知识。2、调查员培训：严格的培训，掌握统一的方法和技巧，并要进行考核。3、制定调查员手册：编一本调查员手册，内列全部操作程序，注意事项等。4、监督：①另一名调查员抽样重复调查；②数值检查或逻辑检错；③定期观察每个调查员工作；④对不同调查员所收集的变量分布进行比较；⑤对变量的时间趋势进行分析；⑥在访谈时使用录音机录音等。

第三节资料的整理与分析

一、基本整理模式：根据统计分析的要求，队列研究的资料一般整理成下表的模式。

	病例	非病例	合计	发病率
暴露组	a	b	a+b=n₁	a/n₁
非暴露组	c	d	c+d=n₀	c/n₀
合计	a+c=m₁	b+d=m₀	a+b+c+d=t

式中a/n₁和c/n₀分别为暴露组的发病率和非暴露组的发病率，是统计分析的关键指标。

二、人时的计算：常用的人时单位是人年，常用有：1、以个人为单位计算暴露人年(精确法) 如样本不太大时，可用此法计算。2、近似法计算暴露人年：不知道每个队列成员进入与退出的具体时间或样本太大时用该法。即平均人数乘以观察年数得到总人年数，平均人数一般取相邻两年的年初人口的平均数或年中人口数。3、寿命表法：观察对象人数较多，难以用精确法计算暴露人年，但又要求有一定的精度时用此法。

三、率的计算

(一)常用指标：

1、累积发病率(cumulative incidence)：用观察开始时的人口数作分母，以整个观察期内的发病(或死亡)人数为分子，变化范围为0~1，其流行病学意义有赖于对累积时间长度的说明。

2、发病密度(incidence density)：有各种失访及每个对象被观察的时间不一样等使资料不整齐。此时需以观察人时为分母计算发病率，用人时为单位计算出来的率带有瞬时频率性质称为发病密度。最常用的人时单位是人年，以此求出人年发病(死亡)率。发病密度的量值变化范围是从0到无穷大。

3、标化比：当研究对象数目较少，结局事件的发生率比较低时，是以全人口发病(死亡)率做为标准，算出该观察人群的理论发病(死亡)人数，即预期发病(死亡)人数，再求观察人群中实际发病(死亡)人数与此预期发病人数之比，即得标化发病(死亡)比。最常用的指标为标化死亡比(standardized mortality ratio, SMR)，标化比实际上不是率，而是以全人口的发病(死亡)率做为对照组而计算出来的比。

例如某厂30-40岁组工人有500名，某年内有2人死于肺癌，已知该年全人口30-40岁组肺癌的死亡率2‰，求其SMR。已知O=2，E=500×2‰=1 SMR=2/1=2：即某厂30-40岁年龄组工人死于肺癌的危险达到相应一般人群的2倍。

如果某单位的历年人口资料不能得到，而仅有死亡人数、原因、日期和年龄，则可改算标化比例死亡比(standardized proportional mortality ratio, SPMR)。是以全人口中某病因死亡占全部死亡之比例乘以某单位实际全部死亡数而得出某病因的预期死亡数，然后计算实际死亡数与预期死亡数之比。

例如某厂某年30-40岁年龄组工人死亡总数为100人，其中因肺癌死亡5人，全人口中该年30-40岁组肺癌死亡占全死因死亡的比例为2.2%，则SPMR=5/（100*2.2%）=2.27。即某厂30-40岁年龄组肺癌死亡的危险为一般人群的2.27倍。

(二)显著性检验：队列研究为抽样研究，发现两组率有差别时，要考虑抽样误差的可能，进行统计学显著性检验。

1、U检验：当研究样本量较大，p和1-p都不太小，如np和n(1-p)均大于5时，样本率的频数分布近似正态分布，此时可应用正态分布的原理来检验率的差异是否有显著性，即用U检验法来检验暴露组与对照组之间率的差异。P₁为暴露组的率，P₀为对照组的率，n₁为暴露组观察人数，n₀为对照组的观察人数，P_c为合并样本率，其中X₁和X₀分别为暴露组和对照组结局事件的发生数。求出u值后，查u界值表得P值，按所取的检验水准即可作出判断。

2. 其他检验方法：如果率比较低，样本较小时，可改用直接概率法、二项分布检验或泊松(Poisson)分布检验；率差的显著性检验可以利用的四格表资料的卡方检验；对SMR或SPMR的检验，实际是所得结果值偏离1的检验，其检验方法可用X²检验或计分检验(score test)。

四、效应的估计：队列研究的最大优点就在于它可以直接计算出研究对象的结局的发生率，能直接计算出暴露组与对照组之间的率比和率差，即相对危险度RR(relative risk)与归因危险度AR(attributable risk)，从而可直接准确地评价暴露的效应。

1、相对危险度(RR)也叫危险比(risk ratio)或率比(rate ratio)，是反映暴露与发病(死亡)关联强度的最有用的指标，式中Ie和Io分别代表暴露组和非暴露组的率。RR表明暴露组发病或死亡的危险是非暴露组的多少倍。RR值越大，表明暴露的效应越大，暴露与结局关联的强度越大。RR算出的只是一个点估计值，是一个样本值。若要估计数值的总体范围，应考虑到抽样误差的存在，需计算其可信区间，通常用95%可信区间。常用的有Woolf法和Miettinen法。如Woolf法。lnRR的95%可信区间=其反自然对数即为RR的95%可信区间。

2. 归因危险度(AR) 又叫特异危险度、率差(rate difference, RD)和超额危险度(excess risk)，是暴露组发病率与对照组发病率相差的绝对值，它表示危险特异地归因于暴露因素的程度。

RR说明暴露者与非暴露者比较增加相应疾病危险的倍数；AR则一般是对人群而言，暴露人群与非暴露人群比较，所增加的疾病发生数量，如果暴露因素消除，就可减少这个数量的疾病发生。前者具有病因学的意义，后者更具有疾病预防和公共卫 生学上的意义。以表4-9，从RR看，吸烟对肺癌的作用较大，病因联系较强；从AR看，吸烟对心血管疾病的作用较大，预防所取得的社会效果将更大。

表4-9 吸烟者与非吸烟者死于不同疾病的RR与AR

疾病	吸烟者	非吸烟者	RR	AR
疾病	(1/10万人年)	(1/10万人年)	RR	(1/10万人年)
肺癌	50.12	4.69	10.7	45.43
心血管疾病	296.75	170.32	1.7	126.43

3. 归因危险度百分比(AR%)：又称为病因分值EF(etiologic fraction)，是指暴露人群中的发病或死亡归因于暴露的部分占全部发病或死亡的百分比。或以表4-9为例计算肺癌的。说明吸烟者中发生的肺癌有90.6%归因于吸烟。

4、人群归因危险度(population attributable risk，PAR)与人群归因危险度百分比(PAR%) 人群归因危险度百分比也叫人群病因分值(population etiologic fraction, PEF)。PAR是指总人群发病率中归因于暴露的部分，而PAR%是指PAR占总人群全部发病(或死亡)的百分比。RR和AR都说明暴露的生物学效应，即暴露的致病作用有多大；而PAR和PAR%则说明暴露对一个具体人群的危害程度，以及消除这个因素后可能使发病率或死亡率减少的程度，它既与RR和AR有关，又与人群中暴露者的比例有关。

PAR和PAR%的计算式如下：PAR=I_t－I₀ I_t代表全人群的率，I₀为非暴露组的率。式中P_e表示人群中有某种暴露者的比例，从该式可看出PAR%与相对危险度及人群中暴露者的比例的关系。继续以表4-9的数据资料为例，已知非吸烟者的肺癌年死亡率为0.0469‰(I₀)，全人群的肺癌年死亡率为0.2836‰(I_t)，则：①PAR= I_t—I₀=0.2836‰—0.0469‰=0.2367‰② 从计算结果可知，虽然吸烟导致肺癌的AR%达90.6%，但因人群中只有部分人吸烟，故其PAR%仅为83.5%。

5. 剂量反应关系的分析：如果某种暴露存在剂量效应关系，即暴露的剂量越大，其效应越大，则该种暴露作为病因的可能性就增大。其分析方法是先列出不同暴露水平下的发病率，然后以最低暴露水平组为对照，计算各暴露水平的相对危险度和率差。必要时，应对率的变化作率的趋势性检验。

第四节偏倚及其防止

一、常见偏倚的种类：

1、选择偏倚(selection bias)：发生于研究对象中有人拒绝参加；历史性队列研究中有些人的档案丢失或记录不全；研究对象由较健康志愿者组成；早期病人研究开始时未发现、抽样方法不正确、执行不严格。

2、失访偏倚(lost to follow-up)在一个较长的追踪观察期内，总会有对象迁移、外出、死于非终点疾病或拒绝继续参加观察而退出队列。失访率最好不超过10%。

3、信息偏倚(information bias) 在获取暴露、结局或其他信息时所出现的系统误差或偏差，又称为错分偏倚(misclassification bias)，如判断有病为无病，判断有无暴露等。由于仪器不精确、询问技巧不佳、检验技术不熟练、医生诊断水平不高或标准不明确、记录错误甚至造假等造成。若发生于一组而不发生于另一组，或两组错分的程度不同，则结果可能比实际的相对危险度高或低。前者称为非特异性错分，将后者称为特异性错分。

4、混杂偏倚(confounding bias) 混杂是指所研究因素与结果的联系被其它外部因素所混淆，这个外部因素就叫混杂变量.它是疾病的一个危险因子，又与所研究的因素有联系，它在暴露组与对照组的分布是不均衡的。性别、年龄是最常见的混杂因素。

二、常见偏倚的预防：

1、选择偏倚的防止：预防为主的方针。首先要有一个正确的抽样方法，即严格遵守随机化的原则；严格按规定的标准选择对象；对象一旦选定，坚持随访到底。

2、失访偏倚的防止：提高研究对象的依从性。失访率达到20%以上，则研究的真实性值得怀疑。

3、信息偏倚的防止：选择精确稳定的测量方法、调准仪器、严格实验操作规程、同等地对待每个研究对象、提高临床诊断技术、明确各项标准、严格按规定执行、做好调查员培训是重要措施。

4、混杂偏倚的防止：对研究对象作某种限制以获得同质的样本；在对照选择中采用匹配的办法，在研究对象抽样严格遵守随机化的原则等措施。

三、常见偏倚的估计与处理：

1、选择偏倚与失访失倚：通过审查研究对象的选择方法、调查研究对象的依从率、比较失访及退出研究者与继续研究者的基本特征等，可初步估计选择偏倚与失访失偏产生的可能性。

2. 信息偏倚：通过对一个随机样本进行重复的调查与检测，将两次检测的结果进行比较，以估计信息偏倚的可能与大小。

3、混杂偏倚：首先应根据混杂的判断标准来判断混杂存在的可能性，比较分层调整前后的两个效应测量值的大小以估计混杂作用的大小。混杂偏倚的处理可采用分层分析、标准化或多因素分析的方法。

第五节研究的优缺点

一、优点：

1、由于研究对象暴露资料的收集在结局发生之前，并且都是由研究者亲自观察得到的，所以资料可靠，一般不存在回忆偏倚。

2、可以直接获得暴露组和对照组人群的发病或死亡率，可直接计算出RR和AR等反映疾病危险关联的指标，可以充分而直接地分析暴露的病因作用。

3、由于病因发生在前，疾病发生在后，因果现象发生的时间顺序上合理，加之偏倚较少，又可直接计算各项测量疾病危险关联的指标，故其检验病因假说的能力较强，一般可证实病因联系。

4、有助于了解人群疾病的自然史。有时还可能获得多种预期以外的疾病的结局资料，分析一因与多种疾病的关系。5、样本量大，结果比较稳定。

二、缺点：

1、不适于发病率很低的疾病的病因研究，因为在这种情况下需要的研究对象数量太大，一般难以达到。

2、由于随访时间较长，对象不易保持依从性，容易产生各种各样的失访偏倚。同时由于跨时太长，研究对象也容易从半途中了解到研究目的而改变他们的态度。

3、研究耗费的人力、物力、财力和时间较多，其组织与后勤工作亦相当艰巨。

4、由于消耗太大，故对研究设计的要求更严密，资料的收集和分析也增加了一定的难度，特别是暴露人年的计算较繁重。5、在随访过程中，未知变量引入人群，或人群中已知变量的变化等，都可使结局受到影响，使资料的收集和分析复杂化。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：妈妈母亲节快乐（原创）

后一篇：由一张“恶心”图片谈谈医院感染（原创）

新浪BLOG意见反馈留言板　欢迎批评指正

流行病学队列研究之精要 （原创）

流行病学

原创笔记

流行病学队列研究之精要（原创）