| 回归分析的综述 |
|
[ 2007-4-12 23:32:00
| By: 稻穗 ]
|
| |
|
回归分析的综述 1、回归分析的历史起源 回归分析最早是19世纪末期高尔顿(Sir Francis Galton)所发展。高尔顿是生物统计学派的奠基人,他的表哥达尔文的巨著《物种起源》问世以后,触动他用统计方法研究智力进化问题,统计学上的“相关”和“回归”的概念也是高尔顿第一次使用的。1855年,他发表了一篇“遗传的身高向平均数方向的回归”文章,分析儿童身高与父母身高之间的关系,发现父母的身高可以预测子女的身高,当父母越高或越矮时,子女的身高会比一般儿童高或矮,他将儿子与父母身高的这种现象拟合出一种线形关系。但是有趣的是:通过观察他注意到,尽管这是一种拟合较好的线形关系,但仍然存在例外现象:矮个的人的儿子比其父要高,身材较高的父母所生子女的身高将回降到人的平均身高。换句话说,当父母身高走向极端(或者非常高,或者非常矮)的人的子女,子女的身高不会象父母身高那样极端化,其身高要比父母们的身高更接近平均身高。高尔顿选用“回归”一词,把这一现象叫做“向平均数方向的回归”(regression toward mediocrity)。虽然这是一种特殊情况,与线形关系拟合的一般规则无关,但“线形回归”的术语仍被沿用下来。作为根据一种变量(父母身高)预测另一种变量(子女身高)的一般名称沿用至今,后被引用到对多种变量关系的描述。(整理自《欧美统计学史》)[1] 而关于父辈身高与子代身高的具体关系是如何的,高尔顿和他的学生K·Pearson通过观察了1078对夫妇,以每对夫妇的平均身高作为自变量,取他们的一个成年儿子的身高作为因变量,结果发现两者近乎一条直线,其回归直线方程为:y^=33.73+0.516x ,这种趋势及回归方程表明父母身高每增加一个单位时,其成年儿子的身高也平均增加0.516个单位。[2]
温忠麟在其所编的《心理与教育统计》一书中,对回归分析定义为:“用统计的方法研究变量Y和X的不确定的共变关系”,“描述Y的均值与X的关系的函数通常称为回归方程”,并通过讨论线性回归模型,从一个自变量到多个自变量的情形进行介绍如何建立回归方程,如何检验、评价和解释回归方程,如何利用回归方程进行预测等,具体从直线回归、可线形化的曲线回归和多元回归分析三个方面进行阐述。 张厚粲、徐建平在他们编著的《现代心理与教育统计学》一书中提到:回归分析是通过大量的观测数据,可以发现变量之间存在的统计规律性,并用一定的数学模型表示出来,这种用一定模型来表述变量相关关系的方法。回归分析不但适用于实验数据,还可以分析未作实验控制的观测数据或历史资料。作者主要简单介绍了简单回归分析模型以及如何拟合这一模型。在简单回归模型中,Y^ =a+bX,其中参数a,b分别表示截距与斜率,Y^ 叫做因变量或被测变量,X叫做自变量或预测变量。因变量的观察值与预测值之间的差异叫做残差。运用最小二乘法和平均数可以建立这一模型。回归分析的主要目的是建立一种线性模型,然后通过这种模型进行分析和预测。 张敏强在其主编的《教育与心理统计学》一书中认为统计学中的回归分析是借助于数学模型对客观世界所存在的事物间的不确定关系的一种数量化描写,其目的在于为不确定现象的研究提供更为科学、精细的手段,以应用于相关随机变量的鼓励、预测和控制。回归分析的三大部分是:(1)建立回归方程,依据专业知识调查所研究现象可能涉及到的变量的种类和个数,并且进行实验或调查以获取实际数据,然后结合以往的经验,对所获得数据进行分析研究,确定回归方程的函数形式。(2)检验和评价所建回归方程的有效性,检验方程有无使用价值,并找到评价回归方程有效性高低的统计指标来评价所建回归方程使用价值的高低。(3)利用所建回归方程进行预测和控制。这正是研究回归现象、进行回归分析的根本目的所在。利用回归方程进行控制,多见于自然科学研究领域,在教育和心理科学研究中,更多的是利用所建回归方程进行估计和预测。 柯惠新等主编的《调查研究中的统计分析法》一书中对于回归分析的描述是:为了表示响应Y是怎样和因子X相联系的,可以用一条回归直线Y^ =a+bX去拟合。斜率b和截距a可以用最小二乘的简单公式来计算。实际的观测值必须假定是取自某一潜在总体的样本。对于这个总体,我们用希腊字母β表示真实回归直线的斜率,它就是用样本斜率b来估计的那个目标。如果抽样是随机的,那么b随着样本的不同围绕着其目标β以一个特定的标准误差近似正态地波动。由b的抽样分布,可以构造β的置信区间,或计算β=0概值。根据这两个结果中的任何一个,都可以检验假设β=0。在非线性关系中,例如抛物线关系,可以利用简单的变换化为标准的多元回归来拟合。也可以利用现有的统计软件来寻求一条比较合理的拟合曲线。 王孝玲编著的《教育统计学》一书中提到:有相关关系的两个变量,如果一个为自变量,另一个为因变量,因变量随自变量的变化而作程度不同的变化,这种近似确定性质的关系可以用数学方程式来表达,从中可以由自变量的值推算或预测因变量的估计值,这个过程称为回归分析。书中进一步介绍如何建立回归方程式,如何计算回归系数,如何估测和估计标准误差等方面进行详细介绍。 茆诗松等编著的《回归分析及其试验设计》,是我目前找到的整本都是介绍回归分析的书。书中提到:回归分析是研究随机现象中变量之间关系的一种数理统计方法,它在工农业生产和科学实验中有着广泛的应用。书中通过生产中的实际问题,较详细地介绍了回归分析中的参数估计、统计检验和预报控制等问题。然后再阐述逐步回归及多项式回归分析方法,而且还介绍了如何回归的试验设计。回归设计在20世纪五十年代初,为了适应生产的发展,寻求最佳工艺和配方以及建立生产过程的数学模型等的需要而产生的,根据试验目的和数据分析来选择的每一个试验点在数据获取上含有最大的信息,从而减少试验次数,并使数据的统计分析具有一些较好的性质。发展到今天,回归设计的内容已相当丰富,有回归的正交设计,回归的旋转设计,回归的D-最优设计等。在这些设计的基础上,人们还进一步研究各种“最优设计”的标准,从而可以评定各种设计的好坏,以利于探索新的设计方案。 参考文献: 1、张厚粲、徐建平编著:《现代心理与教育统计学》,(修订版)北京师范大学出版社,2004年版 2、杨晓明主编:《SPSS在教育统计中的应用》,高等教育出版社,2004年版 3、温忠麟著:《心理与教育统计》,广东高等教育出版社,2006年版 4、张敏强主编:《教育与心理统计学》,(修订版)人民教育出版社,2002年版 5、柯惠新、黄京华、沈浩主编:《调查研究中的统计分析法》,北京广播学院出版社,1992年版 6、王孝玲编著:《教育统计学》,华东师范大学出版社,1986年版 7、茆诗松、丁元、周纪芗、吕乃刚编著:《回归分析及其试验设计》,华东师范大学出版社,1981年版 |
| |

加载中…