生存时间资料与生存分析
一.生存时间资料及其特点
这类资料含有结局和时间两方面信息,它起源于寿命统计,通过随访收集,特称为生存时间资料。生存时间资料的统计方法简称为生存分析(survival
analysis),它常用于随访研究,也适用于疗效评价(痊愈或显效为阳性)和追踪研究(发病为阳性)。生存分析大体上可分为参数法、非参数法和半参数法3种类型。
1.生存时间资料的特点
(1)数据结构
①
生存时间资料的记录:
记录的项目包括开始观察日期、终止观察日期、结局,以及协变量(研究因素与混杂因素)。
②
生存时间的类型:
生存时间(survival
time)是指观察到的存活时间,其中有两种类型:
A.完全数据(complete
data):指从起点至死亡所经历的时间,即死者的存活时间。
B.截尾数据(censored data):生存时间观察过程被人为地截止称为截尾(censored),又称删失或终检。从起点至截尾点所经历的时间称为截尾数据,习惯上在时间上标注“+”表示截尾。
完全数据提供了病人确切的生存时间,是生存分析的主要依据;截尾数据也提供部分信息,说明病人在某时刻之前没有死亡,一般用于确定暴露人口。
③
生存时间资料的特点:
A.效应变量有2个:一是生存时间(天数),二是结局(死亡与否、是否阳性等)。
B.存在截尾数据。
C.分布类型复杂:生存时间资料常通过随访获得,因此观察时间长且难以控制混杂因素,故其分布长呈偏态,影响因素较多,规律难以故测。
因此,生存时间资料不宜简单地计算死亡率,也不能简单地计算生存时间的平均数,必须将两者结合起来分析才能准确地反映疗效和预后的好坏程度,即必须用生存分析方法作统计分析。
(2)统计描述
一般的统计描述属于空间分布范畴,侧重于集中趋势(如平均数、死亡率)和离散趋势(如标准差)。生存时间资料的分布属于时间分布,强调时间过程和截尾数据,故死亡强度必须用概率表示,生存时间不能计算平均数,此外还要有将时间与死亡率结合在一起的指标。常用的统计描述指标有:
①死亡率、死亡概率、生存概率
A.死亡率(mortality rate,death
rate):记为m,表示在某单位时间里的平均死亡强度频率,描述过去的,已经发生的情况。年内死亡率的计算公式为
m=年内死亡数/年平均人口数×1000‰
年平均人口数有多种估计方法,常用年中人口数代替,或按下式估计
年平均人口数=(年初人口数+年底人口数)/2
年初人口数是指该年起点的人口数(包括恰好在起点处死亡或截尾者,下同)
B.死亡概率(mortality
probability):记为q,是指往后一个时段内死亡的可能性大小(概率预测未来的,即将发生的情况)。年死亡概率的计算公式为
q=年内死亡数/年初观察例数
若年内有截尾,则分母用校正人口数,例如,
校正人口数=年初人口数-(截尾例数/2)
死亡率与死亡概率两者的计算和意义都有区别,即计算时公式中分母不同;死亡率反映年平均死亡强度,而死亡概率表示往后一年死亡的机会大小,
C.生存概率(survival
probability):记为p,是死亡概率的对立面,指往后活满一个时段的可能性大小。年生存概率表示往后再活一年的机会大小,其计算公式为
p=1-q=该年活满一年人数/年初观察例数
分子部分即年底尚存人数,若年内有截尾,则分母用校正人口数。
② 生存率及其标准误
A.生存率(survival
rate):记为S(t),是指病人经历给定的t个单位时间之后仍存活的概率。生存率是一种习惯叫法,其实质是累积生存概率(cumulative
probability of
survival)。若无截尾数据,其公式为
S(t)=P(T≥t)=t时刻仍存活的例数/观察总例数
其中T为病人的存活时间。上式的定义和意义都很明确,但如果含有截尾数据,则观察总例数将难以确定,故此式一般不能直接应用。
当含有截尾数据时,可利用概率乘法原理估计生存率。假定病人在各个时段生存的事件独立,各时段的生存概率为pj,j=1,2,…,k,则应用概率乘法原理得累积生存概率估计的公式为
S(tk)=P(T≥tk)=p1p2…pk
该公式可用校正例数方法处理截尾数据,此外,式中的还可以根据应用背景给予不同定义(公式),便于引入协变量作多因素分析(见后)。
B.生存率的标准误:生存率的标准误有不同的估计方法,其中Greenwood’s法(1926)比较常用,其公式为
SE(S(tk))=…
C.生存曲线(survival
curve):是指将各个时点的生存率连接在一起的曲线图。按上式估计的生存率是间断性的,曲线性状分为两种类型:
a.阶梯型:小样本资料用直接法估计的生存曲线。
b.折线型:大样本资料用频数表法估计的生存曲线。
③ 半数生存期及其四分位数间距
病人治疗后至死亡所经历的时间跨度即是生存期,但截尾病人的存活时间不是生存期的真值。半数生存期及其四分位数间距的意义同普通的百分位数,但因生存时间资料存在截尾数据,故不能采用普通百分位数的公式计算,一般通过生存率反推时间的方法来估计。
A.半数生存期(median survival
time):又称中数生存期,记为T50,其定义为
T50=生存率为0.5时所对应的时间
它表示有并且只有50%的个体可活这么长时间,它反映生存期的平均水平。
B.四分位数间距:记录为Q,表示中间半数病人生存期的分布范围,它反映生存期的离散程度,其定义为
Q=T25-T75
式中T25和T75分别是25百分位数和75百分位数,其估计方法同半数生存期。
(3)资料要求
生存时间资料协变量的要求同一般统计资料,但对应变量有特殊的要求:
①
死亡例数和比例不能太少
这类资料的样本大小主要看死亡例数和比例,而不是总例数,因其信息主要由死亡病例提供,死亡病例少则信息量小,死亡比例小则易出现偏性。
②
截尾原因无偏性
③
生存时间尽可能精确
二.小样本生存率的Kaplan-Meier估计
此法直接用概率乘法原理估计生存率,故又称乘积极限法(Product-limit
method),它由Kaplan-Meier于1958年提出,故又称Kaplan-Meier法(记为KM法)。这是一种非参数法,主要用于小样本资料的生存率估计。
1.生存率估计
2.生存曲线
三.大样本生存率的寿命表法估计
1.生存率估计
2.结果分析
3.生存曲线
四.生存曲线比较的假设检验
1.Log
rank检验的基本思想
Log-rank检验的基本思想是实际死亡数与期望死亡数进行比较。
2.Breslow检验
3.组间差别大小的度量
Log-Rank与Breslow检验不计算描述性统计指标,当检验结果有统计学意义时,可通过以下几个途径来考察效果的好坏和差别的大小。
①生存曲线图(或表)目测判断
②半数生存期比较
③相对危险度RR(Relative
Risk)比较
相对危险度是因素效应指标,反映因素作用的相对大小。
4.生存分析中需注意以下几点:
①方法选择
Log-Rank法将所有四格表一视同仁,因四格表例数是逐渐减少的,所以它实际上相对重视了远期效应;而Breslow法以四格表的例数为权重,则相对重视了近期效应。要根据对近期效应和远期效应的重视程度来选择方法。实际应用中常同时计算这两种统计量,当两者结论一致时,可认为近期与远期疗效都有差别(或都无差别);若Breslow法拒绝H0而Log-Rank法不拒绝H0,则说明近期疗效有差别而远期疗效无差别,反之亦然。
②应用条件
除了生存资料的基本要求之外,还要求各组生存曲线不能交叉。若出现这种交叉,则提示可能存在混杂因素,应采用多因素方法来校正混杂作用或分段统计分析。
加载中,请稍候......