加载中…
个人资料
李苏宜
李苏宜
  • 博客等级:
  • 博客积分:0
  • 博客访问:11,578
  • 关注人气:126
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

临床肿瘤学研究的医学统计原理

(2010-02-10 12:33:15)
标签:

临床肿瘤学

原理原则

临床研究

恶性肿瘤

教育

分类: 肿瘤内科学教案

    写在前面的话:由于这篇讲座没有任何图表,没有讲解计算方法,和仅有个别公式,因而是一篇有关统计学的拙劣制作。这是我本人对医学统计学和临床肿瘤学两门学科粗略了解后的一点十分肤浅的体会。文章侧重了基本原理、基本原则和基本思想的交代,目的是希望与临床肿瘤学同道们在从事肿瘤临床研究时共勉。

                                                   李苏宜

                                                  2004年1月23日

 

 

 

临床肿瘤学研究的医学统计原理

 

李苏宜

 东南大学附属中大医院临床肿瘤中心  (南京210009)

 

一、相关概念

1、概率的概念

 概率是指描述事件发生可能性大小的一个度量。它不同于频率,但是在统计学上又是密不可分的。设在同样条件下,独立地重复做N次试验,其中的一个结果(此处命名为A)出现了F次,则F/N就是结果A的出现频率。当N的数值逐渐增大时,频率F/N会在一个常数 ρ的左右作微小摆动,就称ρ为结果A的概率,记作:P(A)==ρ。在临床肿瘤学研究工作中概率不易求得,只要N充分大,可将频率作为概率的估计值。

在一定条件下,肯定发生的事件称为必然事件,ρ=1;在一定条件下,肯定发生不事件称为不可能事件,ρ=1。因而,概率介于0─1之间。

可能发生也可能不发生的事件,称为偶然事件,又称为随机事件。例如NVB+DDP联合方案化疗治疗一例非小细胞肺癌时,是否可以求得有效的结果,就是一个随机事件。当事件的结果只有两个相对独立的情况时,那末它们各自出现的概率之和等于1。

2、临床资料类型

包括计量资料、计数资料和等级资料三大类。

计量资料  测量患者的某项指标量大小所得到的资料。这类资料是有度量衡单位

的。例如,食管癌患者的食管钡充盈摄片测量充盈缺损长短的资料。

计数资料  按某种属性或类别将患者及其患者的其它资料归类分组后,再计点各组的个数所得到的资料。例如,某肿瘤科在2003年中共收治食管癌55例、非小细胞肺癌78例、胃癌102例、大肠癌91例、原发性肝细胞肝癌49例、非霍奇金氏淋巴瘤26例、胰腺癌26例。在这组资料中,就是按病种将病人分组后,再计点个组例数所得到的资料。值得指出的是,不同类别者不可划归一类,比如不可以将胃癌患者划归到大肠癌组中去。

等级资料  将患者按某种属性的不同程度分组并计点个等级组内的例数所得到的资料。其具有四分之一的计量特性和四分之三的计数特性。例如,NVB+DDP联合化疗方案治疗非小细胞肺癌患者43例,其中CR 4例、PR 17例、S 18例、P 4例,此组资料就是等级资料。

3、几个常用概念

变量和随机变量  在实际工作中对每一个患者的某项指标进行测量和观察所得到的数据称为变量。例如,化疗后患者的外周血白细胞计数的多少、病灶大小等。又称观察值或变量值。这些观察值可以是定性的、也可以是定量的。定性变量包括无序分类即前述的计数资料和有序分类即前述的等级资料两种,定量变量又称数值变量即前述的计量资料。如果上述变量是由随机试验得到的,就称为随机变量。在随机试验中,对于每一个患者试验结果就会有一个值与其对应,但是,这个值出现在这个患者身上是有一个概率的,那末这个值就是随机变量。因此,随机变量是定义在一随机试验所有可能结果上的数值函数,对于每一个试验结果,都会有一个对应的发生概率。因此,随机变量具备两个特点,其一是一个变量,其二是它的取值具有一定的概率。所以,对随机变量的描述应当包括变量值及其相应的概率。

总体和样本  总体是指性质相同的研究对象中所有观察单位某种变量值的集合。所谓性质相同的观察单位是依据研究目的确定的。样本:是对总体的估测,是利用一定的随机抽样方法从总体中随机抽取有代表性的一部分,是实测值的集合。样本的作用在于以相对小的工作量和切实可行的工作量估计和推论总体。要求样本,其一:要有可靠性,即数值的质量;其二:要有代表性,即要有足够的样本量和随机抽取。

    误差  误差包括两个方面:其一,测得值与实际值之差;其二,样本指标值与总体指标值之差。具体体现在:(1)系统误差:在收集资料过程中,由于医生掌握疗效标准偏高或偏低,实验仪器不准,标准试剂未经校正等原因,可使所得到的变量值成倾向性的偏大或偏小,这种误差称系统误差,呈单一方向性,是可以也应该消除的误差;(2)抽样误差:样本指标数值与总体指标数值之间的误差,是由于个体差异所造成的误差,是不可避免的误差,但却有一定规律可循。统计学的一个重要任务就是研究和运用这种误差的规律。(3)随机测量误差:在收集资料过程中,由于各种偶然因素的影响造成同一患者某同一指标多次测定数值不完全一致的误差。这种误差无固定的倾向,是无法避免的。可以通过操控资料收集方法和工具的稳定性使其被控制在允许的范围内,必要时可作统计处理。

    混杂和偏倚  混杂和混杂因素:某一项或数项外部因素(又称背景因素)同时与干预因素(或研究因素)和结果都有联系,由于此外部因素在被比较的两组病例中分布不一致,将会全部或部分的掩盖或夸大干预因素(或研究因素)与结果间的真实联系,即谓之混杂。造成混杂的因子被称为混杂因素或混杂变量或混杂因子。混杂因子具备的基本特点包括:对研究结果有干扰作用,与干预因素(或研究因素)也有联系,但绝对不是干预因素(或研究因素)与研究结果之间因果关系链上的一个环节。临床肿瘤学研究常见的混杂因素是年龄,临床分期,恶性程度,体力状况评分等。例如:当我们观察某一化疗方案治疗食管癌的中期疗效时,如果出现了观察组晚期病人过多,而对照组中期病人过多的情况,未必会出现我们所期望得到的阳性结果,这时由于虽然化疗这一干预因素对结果有影响,但是病期也决定了疾病的预后。控制混杂的方法包括设计的随机化和资料分析时的分层分析甚至多元分析等。

               偏倚是指在临床肿瘤学研究中的任何阶段、任何影响因素使所获得的结果出现了系统误差。其来源包括资料收集、整理和分析的各个环节。一般将其分为三类即选择性偏倚、信息偏倚和混杂偏倚。选择性偏倚是指被抽取到样本中的患者与实际总体中的患者在某一项或数项特征上存在差异。其中因入院率不同而造成的偏倚称伯可森偏倚(Berson`s bias),例如广东省一家省级肿瘤专科医院鼻咽癌病人的入院率将大幅度超过江苏省的任何一家同等医院,其次是奈曼偏倚,是指在肿瘤临床多中心研究时,不同中心中具有某种特征病人的构成比例存在差异,比较突出的是一线治疗病人与二线治疗病人的比例存在差异,例如,一家省级肿瘤专科医院的内科一线化疗病人的比例一般会明显高于一家市级中医医院的中西医结合肿瘤内科。第三个选择性偏倚是与诊断治疗水平相关的偏倚包括检出偏倚和排除偏倚,由于多中心研究时,各中心所参与的医生经验和学识存在差异、设备精确度存在差异、检验方法和标准曲线存在差异,可导致不同中心的漏诊率、误诊率不同,第四个选择性偏倚是各中心的失访率不同所造成的失访偏倚。信息偏倚是在临床研究中对症状的判断能力的差异造成的包括回忆偏倚、汇报偏倚。因为混杂因素控制欠佳的原因所造成的偏倚就是混杂偏倚。

              随机和抽样   随机包含着机遇相等的意思。在肿瘤临床科研过程中,对患者的选取、分组和对患者实施干预措施的顺序等均要严格的按照机遇进行,并且要求真正做到。随机化原则是临床研究最重要最常用的原则,是得到可靠临床资料的根本保障。抽样是指一个可靠性和代表性得到保障的样本从总体中产生的过程。

1. 临床研究工作步骤

    通过接受任务、横向合作课题的到来、临床线索等途径来明确题目,通过检索相关资料了解相关领域进展,必要时写出相关综述;结合题目的特点及目的进行严格的设计。设计内容包括两部分,其一是资料收集过程的设计,其二是资料整理分析过程的设计。然后开始收集原始数据,多数情况下,临床资料需要边收集边整理,以免遗漏、偏差。在完成原始数据的收集后,要依据事先的设计方案进行归纳整理和分析,即进行统计学处理。最后得出结论,写出科研报告。在多中心临床研究时,则需要写出总的科研报告。

2.      抽样方法

    抽样必须遵循随机化的原则,才能获得对总体有较好代表性的样本,并通过样本信息推断总体。随机抽样的方法有多种,常用的有单纯随机抽样、系统抽样、分层抽样、整群抽样、阶段抽样及时序抽样等。抽样必然存在抽样误差,抽样误差的大小用标准误来衡量。

单纯随机抽样    先将病例编号,再用随机数字表或抽签、摸球、掷币、电子计算机随机抽取等方法抽样。

系统抽样     先将病例编号,依次按一定数码间隔抽取的方法。多用于现场研究。

分层抽样     将患者按某一特征分为若干组别(层),再从每一层进行随机抽样的方法。多用于现场研究。

整群抽样     将总体按地域或某特征分成群,选中其中一个群后,全部抽取这个群的全部个体。多用于现场研究。

时序抽样    为了掌握总体在不同时期的变化,若反复观察同一个样本,则容易影响其对总体的代表性。因此,在一定时期对总体进行时序性连续抽样,可以使样本不断得到更换,这种更换可以是全部更换,也可以是部分更换。多用于大型临床研究。

3.         计量资料的描述

    对于一组计量资料,一般从集中趋势、离散趋势两个方面进行统计描述。

集中趋势  肿瘤临床研究中常用算术平均数、几何平均数和中位数来反映一组计量资料的集中趋势。目的是便于反映这组数据资料的轮廓,和进行不同组间的比较。

算术平均数简称均数,是一组已知性质相同的数值之和除以数值的个数所得到的商。人的多数生理指标如身高、体重等都适宜均数表达。求算均数的方法有直接计算方法、加权法、简捷法三种,临床研究中以前者常用,值得注意的是,均数只能用于正态分布或近似正态分布的资料。

中位数也是肿瘤临床研究中常用的平均数,例如,某组患者的年龄、疗后生存期、无瘤生存期等多用中位数表示。它是把一组计量资料数值按大小顺序排列,取位置居中的那一个数值即为中位数。用于资料分布情况不明或明显的偏态分布时。求算中位数的方法有直接方法和频数方法两种。

几何均数是将某组数据转换成对数,再取其算术平均数后,再取其反对数所得到的数值,或者将这组数据全部相乘,再开数据个数次方所得到的根。用于数值差距较大,或按大小排列后数据分布近似成倍分布者。例如,抗体的滴度、药物的效价。几何均数的求算方法也有直接方法和频数方法两种。

离散趋势   这是另一种描述计量资料轮廓的方法。由于事件变异的客观存在,只有既有集中趋势、又有离散趋势的描述才能对数据进行全面的统计学描述。

全距  又称为极差,是一组计量资料按大小顺序排列后,最大数值与最小数值之差。例如,某组胃癌病人的年龄范围是25—76岁之间,这就是极差。

百分位数   将一组计量资料数据按大小顺序排列后,从理论上等分为100份,这样一来每一个等份所含样本量为全部样本量的百分之一。例如,取第5个百分位数,则是按大小顺序排列后的第5个百分之一的数据,那么,第50个百分位数则是中位数。多用于大样本的描述。

方差  在总体中,每一个数据与总体均数的差理论上讲应该是最能够反映出这组资料的离散程度的,如何能够选择一个指标来表示这种差呢?如果简单地将每一个数据与均数的差相加后,那么就会看到这样的结局----结果为零。如果将每一个数据与均数的差平方后再相加,就能够得到一个表示这种差的值了,但是,此数值还受到数据个数的影响,数据个数越多,此值越大。为了解决即可以避免零的出现,又不为数据多少所左右的问题,统计学上将此值除以所观察数据的个数,从而达到准确反映此组计量资料离散程度的目的。这种总体中每一个数据与总体均数的离均差的平方和的均数,称为方差。又称均方。由于方差可导致数据的度量衡单位也是平方,所以科技资料中很少应用。

标准差  是方差的平方根。标准差的应用完全避免了方差的不足。标准差有总体标准差,即通过总体方差而得到的,和样本标准差。由于肿瘤临床资料少有总体资料,多用样本资料来推论总体,因而用样本资料所获得的标准差实际上就是总体标准差的无偏估计值。标准差的意义有四个:其一它说明了计量资料的离散趋势,标准差越大,说明离散程度(也称变异程度)越大;其二是用于计算变异系数;其三是用于计算标准误;其四是结合均数与正态分布的规律估计参考值的范围。

变异系数  这是标准差的另一个表示方式,就是将标准差除以均数,以百分数的形式表示,即将标准差转换成了均数的倍数。临床科研中多用于比较度量衡单位不同或均数差距较大的两组资料的变异程度。例如,对某组化疗后病人的白细胞计数与同组同期的血小板计数进行变异程度的比较。

正态分布  这是一种重要的连续型分布。在总体资料中,我们把这组计量资料按数据大小顺序排列,并将这组数据分成许多小的数据段落,然后你就会发现这样一个规律,越靠近均数的部位,每一个小段落的数据个数越多,靠近两端的数据个数会随着离均数越远而越少,从而形成了这样一种分布,那就是频数(数据的个数)的分布以均数为中心,左右两侧基本对称,频数分布以中间居多并相两侧逐渐减少。当总体均数无限大,同时将段落无限细分后,就可以得到一条类似钟形的曲线,这就是正态分布和正态分布曲线。正态分布的位置由均数决定,钟形曲线的宽窄由标准差决定。均数±1个标准差时,占了曲线下面积的68。27%,均数±1.96个标准差时,占了曲线下面积的95%,均数±2.58个标准差时,占了曲线下面积的99%。以上这些就是显著性检验时常用的概率界线值。几何分布的资料可以转化为对数后,再行正态分布的处理。

7.计数资料的描述

  某种现象实际发生数与可能发生某种现象的总数之比,用来说明某种现象发生的频率和强度。常用百分率、千分率、万分率、十万分率表示。

发病率 年发病率是指某地区内某种疾病新发生病例数除以该地区人口的总数。通常以十万分率表示。

死亡率是指某地区死于某疾病的人数占整个人口总数的比例。称为某病死亡率,例如2002年江苏省食管癌死亡率为十万分之▽▽▽。

以上两者的地区人口的总数为年平均人口数,为年初人口数与年末人口数之和除以2得到的。

病死率  死于某种疾病人口数占同一种疾病患者总数比例。通常以百分率表示。

构成比 是事物内部某一部分的个体数与事物内部各部分之和的总例数之比。通常以百分率表示。例如某医院肿瘤科今年某月内共收治疗60例病人,其中胃癌病人为20例,占30%,这就是构成比。

1、这里需要强调的是计算率和构成比时,样本量应足够大,观察病例数太少,不能用率和构成比来描述,因为计算结果是不稳定的。这是临床研究中经常遇到的错误。例如,某化疗方案治疗食管癌10例,其中完全缓解2例、部分缓解3例,总有效率为50%,这种描述就是错误的,正确的描述应该是“有效例数/总                   【待续】

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有