统计学基本概念
(2011-12-07 14:38:03)
标签:
杂谈 |
分类: 学术调研 |
一、聚类分析
1.概念:聚类分析的职能是建立一种分类方法,它是将一批样品或变量,按照它们在性质上的亲疏程度进行分类。或者说,聚类分析就是要找出具有相近程度的点或类聚为一类;
距离的种类很多,其中欧式距离在聚类分析中用得最广,它的表达式如下:
2.步骤:应用系统聚类法进行聚类分析的步骤如下:
①确定待分类的样品的指标;
②收集数据;
③对数据进行变换处理(如标准化或规格化);
④使各个样品自成一类,即n个样品一共有n类;
⑤计算各类之间的距离,得到一个距离对称矩阵,将距离最近的两个类并成一类;
⑥并类后,如果类的个数大于1,那么重新计算各类之间的距离,继续并类,直至所有样品归为一类为止;
⑦最后绘制系统聚类谱系图,按不同的分类标准或不同的分类原则,得出不同的分类结果。
3.聚类分析的种类
二、ARIMA模型
(一) ARMA模型三种基本形式:自回归模型(AR:Auto-regressive),移动平均模型(MA:Moving-Average)和混合模型(ARMA:Auto-regressive Moving-Average)。
ARMA模型全称为自回归移动平均模型(Autoregressive Moving Average Model,简记ARIMA),是由博克思(Box)和詹金斯(Jenkins)于70年代初提出的一著名时间序列预测方法,所以又称为box-jenkins模型、博克思-詹金斯法。其中ARIMA(p,d,q)称为差分自回归移动平均模型,AR是自回归, p为自回归项; MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。
ARIMA模型的基本思想
ARIMA模型的基本思想是:将预测对象随时间推移而形成的数据序列视为一个随机序列,用一定的数学模型来近似描述这个序列。这个模型一旦被识别后就可以从时间序列的过去值及现在值来预测未来值。现代统计方法、计量经济模型在某种程度上已经能够帮助企业对未来进行预测。
ARIMA模型预测的基本程序
(1)根据时间序列的散点图、自相关函数和偏自相关函数图以ADF单位根检验其方差、趋势及其季节性变化规律,对序列的平稳性进行识别。一般来讲,经济运行的时间序列都不是平稳序列。
(2)对非平稳序列进行平稳化处理。如果数据序列是非平稳的,并存在一定的增长或下降趋势,则需要对数据进行差分处理,如果数据存在异方差,则需对数据进行技术处理,直到处理后的数据的自相关函数值和偏相关函数值无显著地异于零。
(3)根据时间序列模型的识别规则,建立相应的模型。若平稳序列的偏相关函数是截尾的,而自相关函数是拖尾的,可断定序列适合AR模型;若平稳序列的偏相关函数是拖尾的,而自相关函数是截尾的,则可断定序列适合MA模型;若平稳序列的偏相关函数和自相关函数均是拖尾的,则序列适合ARMA模型。
(4)进行参数估计,检验是否具有统计意义。
(5)进行假设检验,诊断残差序列是否为白噪声。
(6)利用已通过检验的模型进行预测分析。
白噪声(White noise):白噪声一个平稳的随机过程满足下列条件的随机过程称为白噪声,记为:
注:所谓时间序列的平稳性,是指时间序列的统计规律不会随着时间的推移而发生变化。直观上,一个平稳的时间序列可以看作一条围绕其均值上下波动的曲线。根据平稳时间序列分析的理论可知,当
因此,检验序列的非平稳性就变为检验特征方程是否有单位根,这就是单位根检验方法的由来 。
时间序列的非平稳性:是指时间序列的统计规律随着时间的位移而发生变化,即生成变量时间序列数据的随机过程的特征随时间而变化。
DF检验:统计学家Dickey、Fuller得到DF检验的临界值,并编制了DF检验临界值表供查。在进行DF检验时,比较t统计量值与DF检验临界值,就可在某个显著性水平上拒绝或接受原假设。
ADF检验:Augmented Dickey-Fuller检验(ADF检验):DF检验存在的问题是,在检验所设定的模型时,假设随机扰动项不存在自相关。但大多数的经济数据序列是不能满足此项假设的,当随机扰动项存在自相关时,直接使用DF检验法会出现偏误,为了保证单位根检验的有效性,人们对DF检验进行拓展,从而形成了扩展的DF检验(Augmented Dickey-Fuller Test),简称为ADF检验。
DF和ADF检验的步聚:
计算在原假设成立的条件下t统计量值,查DF检验临界值表得临界值,然后将t统计量值与DF检验临界值比较:
若t统计量值小于DF检验临界值,则拒绝原假设,说明序列不存在单位根;说明是平稳序列。
若t统计量值大于或等于DF检验临界值,则接受原假设,说明序列存在单位根;有单位根说明非平稳。
(二)平稳性检验方法
1. 单位根方法
2. 自相关函数法
3. DF检验方法
4. 如果该特征方程的所有根在单位圆外(根的模大于1),则AR(p)模型是平稳的。特征根z=1/j ,当|j|<1,则表示特征根大于1,说明是平稳的,否则是非平稳的。
三、灰色系统关联度
四、描述性统计与推断统计学
1. 描述性统计学是指研究如何取得反映客观规律的数据,并通过图表形式对所收集的数据进行加工处理和显示,进而通过综合、概括与分析得出反映客观现象的规律性数量特征。其内容包括数据收集方法,数据的加工处理方法、数据显示方法,数据分布特征的概括与分析、解释方法.
2.推断统计学。是指研究如何根据样本数据去推断总体数量的特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量做出以概率的形式表述的推断(既利用样本信息和概率论对总体的数量特征进行估计和检验)。
五、数据类型(Statistical Data)
统计数据它是采用某种计量尺度对事物进行计量的结果,采用不同的计量尺度会得到不同类型的统计数据。可以将统计数据分为以下四种类型:
定类数据——表现为类别,但不区分顺序,是由定类尺度计量形成的。例如将国民经济按其经济类型,可以分为国有经济、集体经济、私营经济、个体经济等类,并用(01)代码表示国有经济,(02)表示集体经济,(03)表示私营经济,(04)表示个体经济。
定序数据——表现为类别,但有顺序,是由定序尺度计量形成的。定序尺度不但可以用数表示量的不同类(组)别,而且也反映量的大小顺序关系,从而可以列出各单位、各类(组)的次序。这种尺度的主要数学特征是“>”或“<”。例如对合格产品按其性能和好坏,分成优等品、一等品、合格品等等。
定距数据——表现为数值,可进行加、减运算,是由定距尺度计量形成的。它不仅能将事物区分为不同类型并进行排序,而且可以准确地指出类别之间的差距是多少。例如,学生某门课程的考分,可以从高到低分类排序,形成90分、80分、70分,直到零分的序列。它们不仅有明确的高低之分,而且可以计算差距,90分比80分高10分,比70分高20分等等。定距尺度的计量结果表现为数值,可以进行加或减的运算,但却不能进行乘或除的运算,
定比数据——表现为数值,可进行加、减、乘、除运算,是由定比尺度计量形成的。
前两类数据说明的是事物的品质特征,不能用数据表示,其结果均表现为类别,也称为定性数据或品质数据(Oualitative data);后两类数据说明的是现象的数量特征,能够用数值来表现,因此也称为定量数据或数量数据(Quantitative data)。由于定距尺度和定比尺度属于同一测度层次,所以可以把后两种数据看作是同一类数据,统称为定量数据或数值型数据。
区分测量的层次和数据的类型是十分重要的,因为对不同类型的数据将采用不同的统计方法来处理和分析。比如,对定类数据,通常计算出各组的频数或频率,计算其众数和异众比率,进行列联表分析和x2检验等;对定序数据,可以计算其中位数和四分位差,计算等级相关系数等非参数分析;对定距或定比数据还可以用更多的统计方法进行处理,如计算各种统计量、进行参数估计和检验等。我们所处理的大多为数量数据。
这里需要特别指出的是,适用于低层次测量数据的统计方法,也适用于较高层次的测量数据,因为后者具有前者的数学特性。比如:在描述数据的集中趋势时,对定类数据通常是计算众数,对定序数据通常是计算中位数,但对定距和定比数据同样也可以计算众数和中位数。反之,适用于高层次测量数据的统计方法,则不能用于较低层次的测量数据,因为低层次数据不具有高层次测量数据的数学特性。比如,对于定距和定比数据可以计算平均数,但对于定类数据和定序数据则不能计算平均数。理解这一点,对于选择统计分析方法是十分有用的。
六、数据的分布特征与测度
(一)集中度测度:是指一组数据向某一中心值靠拢的倾向。
1.定类数据的测度指标:众数(mode):是指一组数据中出现次数最多的变量值。用MO表示。
2.定序数据的测度指标:中位数(median):处于中间位置上的变量值,用ME 表示。
3.定距数据和定比数据的测度指标:均值(mean):它在统计学具有重要地位,是集中度测度值的最重要指标。
(3)当均值> ME> MO表示左偏或正偏分布。
在实际利用统计软件中,常常看偏态值(Skewness)来判断数据的偏态方向。
其计算公式是:
当偏态值=0时,表示对称分布;
当偏态值>0表示正偏;
当偏态值<0时表示负偏。
同时为了得到数据分布集中趋势的高峰的形状,还需要另一个指标:峰度(Kurtosis),若分布形状比正态分布还要高则称为尖峰分布,若比正态分布更矮则表示平峰分布。
判断准则:由于正态分布的峰度系数等于3,所以当峰度(Kurtosis)>3,表示尖峰分布,当峰度(Kurtosis)<3表示平峰分布。
在E-VIEWS软件中,JB统计量值用来检验观测值是否服从正态分布,统计量的公式 ,它服从,其中n为样本容量,S为偏态值,K为峰度值,在此假设检验中,原假设H0:变量服从正态分布
当P值大于0.05时,则接受原假设,否则拒绝原假设。
(二)离散程度的测度:它反映的是各变量运离中心值的程度。
1.定类数据的离散程度的测度指标:异众比率(Variation ration),是指非众数组的频数占总频数的比率。
2.定序数据的离散程度的测度指标:四分位差。
3.定距和定比数据的测度指标:方差和标准差,还有极差
极差=max(Xi)-min(Xi)
离散系数(Coefficient of vatiation):对于平均水平不同或计量单位不同的不同组别的变量值,是不能用方差和标准差、极差等测度值进行比较的,为削除变量值水平高低和计量单位的不同对离散程度的影响,引入了离散系数
,它标准差与均值的之比。离散系数
七、数据标准化的方法(Normalization Method);标准化数值(Z-Score)
1.统计标准化:z-score规范化也称零-均值规范化:它是最广泛的使用方法,计算公式为:
其中Xi是原值, 是均值, 是标准差。
2.极值标准化(rang):=
3.定基与环比转换:此种方法主要用于构造时间序列指数的指标转换。
定基转换
环比转换
八、权数的构造方法
权重的构造方法一般有两种,一是主观构权法:它是指根据研究者的主观判断来指定指标权重的一种方法,主要有专家评判法、层次分析法(The analytic hierarchy process,简称AHP)。
另一种方法是客观构权法,它是指根据原始信息通过数学或统计方法处理后获得的权数的一种方法,具体有:主成成分分析法、因子分析法、相关法、回归法。
九、特征值(eigen)
应用:1.在多个变量之间计算其协整关系,其检验就要用到特征值。
2. 时间序列平稳性的理论识别条件。
十、假设检验
统计学中,假设检验是对我们所关心的却又是未知的总体参数先作出假设,然后抽取样本,利用样本所提供的信息对假设的正确性进行判断的过程。
(一)假设检验的步骤
1.提出假设(原假设和备择假设)。假设检验实践中,大家都在执行这样一个原则:把最关心的问题作为原假设提出,从而将后果较严重的错误放在α上,事先加以控制。
2.确定检验统计量
3.确定显著性水平
4.计算统计量:其基本计算公式是
式中, 为样本均值, 为被假设的参数值, 为总体标准差,n为样本容量。
5.作出统计决策
根据显著性水平 和统计量的分布查出临界值,用计算出来的检验统计量与临界值进行比较。
决策规则:当计算出来的统计量>大于临界值,则拒绝原假设,接受备择假设。
当计算出来的统计量<大于临界值,则接受原假设,拒绝备择假设。
(二)假设检验的基本思想
就是利用了小概率原理,它是指发生概率的很小的随机事件在一次实验中是几乎不可能发生的。
(三)双侧检验和单侧检验
1.双侧检验:一般形式H0:
=某一数值
2.左则检验。如果希望考察的值越大越好,其一般形式是
决策规划就是: 则接受H0,拒绝H1
,则拒绝H0,接受H1
3.右则检验:如果希望考察的值越小越好,则用右则检验。一般形式是:
某一数值
决策规划与左则检验的决策规划是一样的。
(四)一个正态总体的参数检验
1.总体方差已知的均值检验。因为知道了总体方差,此时就用Z检验统计量
2.总体方差未知的均值检验,因为不知道总体方差。此时,不能用Z检验统计量,此时需要用样本方差 替代,用服从自由度n-1的T分布,其计算公式是
(在计量经济学,系数显著性与此不一样)
(五)两个正态总体的参数检验。也称为两个均值差异的显著性检验——T检验。
T检验通常用于比较两个均值是否相同,或者说两个均值之差是否等于0以此推断两个样本是否来自同一个样本,或者两个样本是否存在显著差异。
5.1. 独立样本的T检验
目的思想:按随机原则确定的两个相互独立的样本,然后检验两个样本的平均值是否存在显著差异,并借此推断两个样本是否所属的总体。
三个前提假设:
(1)样本是正态性的。
(2)方差齐性。方差齐性检验用“Levene~s test for”.其原假设是:方差非齐性;
(3)独立样本。
5.2 配对样本的T检验
目的思路:适用于只有两个处理水平的单因素随机区设计,然后判断他们是否存显著差异。
(六)假设检验中的P值
当原假设为真时,样本可能结果不低于实际观测值(右侧检验),或不高于实际观测结果(左侧检验)的概率。或简单地概括为:当原假设为真时,却拒绝的概率;或者说是犯第一类错误的概率。
决策规划:
当P>显著性水平时,则接受原假设,拒绝备择假设
P<显著水平时,则拒绝原假设,接受备择假设。
概括地说,当P值非常小时,则拒绝原假设,接受备择假设,当P值较大时,则接受原假设,拒绝备择假设。所以,在假设检验时,要注意原假设和备择假设。
事实上,P值可以提供更多的信息,不仅可以用P值与规定的显著性水平比较进行检验决策,而且P值显示了样本值在一定范围内出现的概率。在统计软件SPSS中,sig就是P值。
(七)正态性检验
检验数据的分布是否正态性一般有三种方法,一是残差直方图(Histogram of Residuals),它是一种粗略但灵活方便的方法。
其中,S代表偏态,K代表峰度,N代表样本容量。对于正态分布来说是偏态等于0,且峰度等3.
(八)原假设和备择假设设置原则与各类设置集
在各类假设检验中,弄清楚原假设和备择假设是至关重要的,如果弄反了往往会得出相反的结论。在假设检验中,把需要通过样本去推断其正确与否的命题称为原假设,一般的原则是::H0:两者之间没有显著差异
1. T检验中:
H0:两个样本同属于一个总体,即没有显著差异
2. 方差齐性检验
Levene~s test for equality of variances
H1:方差齐性。
3.KMO值
KMO检验的目的:Kaiser-Meyer-Olkin Measure of Sampling Adequacy是用于比较观测相关系数值与偏相关系数值的一个指标,其值愈逼近1,表明对这些变量进行因子分析的效果愈好。一般认为KMO检验值大于0.5就可以进行因子分析。kmo值越大,因子的贡献率也就越高。
4.巴特利检验
其与KMO检验是一样的,都是用来判断是否可以做因子分析
H0:相关矩阵是单位阵(说明不可做因子分析)
H1:相关矩阵是非单位阵(说明可以做因子分析)
5.相关分析的检验
在SPSS中,关于相关分析在三个选项:1.Pearson积差相关系数;2. Kendall`s tau-b;3. Speraman等级相关检验。
H0:相关系数为0(即不相关)
H1:相关系数不为0(即存在相关)
6.单位根方法(ADF检验)
在此检验中,H0: =1,即时间序列是非平衡的。
7.DW检验
其原假设是不存在自关,即H0: =0
8.正态检验
H0:数据分布是正态的
H1:数据分布是非正态的
(九)单样本T检验(one-sample T test)
基本功能:检验样本所在总体的均值是否与已知的总体相同,用以判断样本与总体是否存在显著差异,或者样本是否来自总体。
H0:样本与总体没有显著差异
H2:样本与总体有显著差异
十一、方差分析
(一)概念与基本原理:
在实际问题中,经常对两个以上的正态总体进行均值比较,即检验两个样本是否取自同一总体。方差分析是对多个总体均值是否相等这一假设进行检验。这一检验要思想就是对TSS进行分解分析。可以说,T检验是方差分析的一个特例。
方差分析所使用的检验统计量是F 统计量,它是方差估计值之比。这里不是根据用途而是根据分析方法来命名的。
2.在方分析中,常用F统计量=组间方差/组内方差。一般来说F越大越好,越大说明拒绝原假设,接受备择假设。
在方程显著性检验(Testing the Overall Significance)中也常用F统计量,其计算公式是
其中,K代表自变量(独立变量)个数(independent),N代表样本个数。因变量也称被解释变量(dependent)
(二)单因素方差分析
1.基本思想:就是研究单个因素(Factor)是否对被解释变量(dependen)产生影响。
2.前提假设:数据的正态性、方差齐性和数据独立性。
3.基本步骤:
第一步:建立假设
第二步:计算样本均值
第三步:计算总样本均值
第四步:计算样本方差
第五步:计算总体方差的组间估计
第六步:计算总体方差的组内估计
第七步:计算F统计量
第八步:编制方差分析表
第九步:做出统计决策
4.在SPSS的实现方法步聚:选择[Analyze]=>[Compare Means]=>[One-Way ANOVA...],打开[One-Way ANOVA]主对话框,然后设置因变量和因素。
(三)单因素分析中的多重分析
若想进一步了解哪些两个总体均数不等,需进行多个样本均数间的两两比较或称多重比较(multiple comparison)。
基本思想:例子:如果分析颜色对饮料销售量有无影响,则属于单因素分析。如果进一步分析颜色中哪一个颜色(黄色、红色、粉色等)对销售量的影响最大,则需要进行多重比较分析。最常用的方法就是最显著性差异法(LSD)。假设检验也常用T检验。
(四)双因素方差分析
基本思想:对两个因素对因变量的影响程度进行分析,称为双因素分析。
实际上这些计算用SPSS 是十分容易解决的。因此读者完全没有必要去记表中繁琐的公式,只需掌握其主要思想并学会应用SPSS 就可以了。
步骤:
第一步:建立假设
第二步:计算样本均值和总样本值
第三步:计算离差平方和
第四步:计算均方值
第五步:计算F统计量
第六步:编制双因素方差分析表
第七步:做出统计决策
在SPSS中的实现方法
选择[Analyze]=>[General Linear Model]=>[Univariate...],打开[Univariate]主对话框。从主对话框左侧的变量列表中设定因变量,单击按钮使之进入[Dependent List]框,再选定变量自因变量,单击按钮使之进入[Fixed Factor(s)]框。
资料“在GLM(General lineal model),用Univariate你可以做多因素方差分析,Mutivariate可以做多应变量方差分析,Repeated Measure...可以做重复测量方差分析,等等
十二、统计学中的常用概念
1. 均值 (算术平均数Arithmetic mean) ,在计算公式中一般用表示。均值在统计学中具有重要的地位,它是进行统计分析和统计推断的基础,首先从统计思想上看,它是一组数据的重心所在,其次均值具有一些重要数学性质。
(1)各变量值与其均值的离差这和等于0
即
(2)各变量值与其均值的离差平方和(即方差)最小,即
2.几何平均数(Geometric mean)
3. 方差和标准差:方差就是各变量值与其均值的离差平方和,它是测度离散程度的主要方法,方差越大说明数据波动程度越大或离散程度越高,方差越小说明数据集中度越高。方差分为总体方差和样本方差,标准差也分为总体标准差和样本标准差。
总体方差(在方差分析中称为TSS)和标准差
样本方差和标准差:
3. 协方差和相关系数
令X和Y为两个随机变量,其均值是 和 ,于是协方差的定义为
Cov(X,Y)= =E(XY)-
当x和y独立时,则Cov(X,Y)=E(x)E(y)- =0
可见,协方差作为描述X和Y相关程度的量,在同一物理量纲之下有一定的作用,但同样的两个量采用不同的量纲使它们的协方差在数值上表现出很大的差异。所以又引入的相关系数的概念。其计算公式是:
所以,cov(x,y)=R*
4. 数学期望:又称期望或均值,是平均数的一种推广。是随机变量按概率的加权平均,表征其概率分布的中心位置,即用以测量数据的平均水平或集中程度。
(1)离散随机变量X的期望值E(X)
(2) 连续随机变量X的期望值E(X)
5.残差:表示实际观察值与估计值之差。
6.总离差平方和(TSS):
7.残差平方和(RSS):ESS反映样本观测值与估计值偏离的大小,
8.解释平方和(ESS)(Explained Sum of Squares),反映由模型中解释变量所解释的那部分离差的大小;
9.众数(MODE):众数是一组数据中出现次数最多的变量值。主要用于分类数据,也可用于顺序数据和数值型数据。
10. 中位数(Median):中位数是一组数据按一定顺序排列后,处于中间位置上的变量值。
11.平均差(Md): 是各单位实际值对其算术平均数的离差绝对值的算术平均数,反映的是各标志值与其平均数的平均差异程度。
12.均方(mean square):(与标准差是同一个概念) 平方和除以对应的自由度。这个量用于F比以判断均值之间是否有显著差异。
13.最小显著性差异法(least significant difference 简写LSD法):用于方差分析中的多重比较的一种均值相等性的检验方法。
十三、计量经济学中常用统计量
十四、非参数检验(nonparametric statistics )
许多统计分析方法的应用对总体有特殊的要求,如t检验要求总体符合正态分布,F检验要求误差呈正态分布且各组方差整齐,等等。这些方法常用来估计或检验总体参数,统称为参数统计。
但许多调查或实验所得的科研数据,其总体分布未知或无法确定,这时做统计分析常常不是针对总体参数,而是针对总体的某些一般性假设(如总体分布),这类方法称非参数统计(Nonparametric tests)。
(一)单样本配合度检验Chi-Square
基本功能:调用此过程可对样本数据的分布进行卡方检验。卡方检验适用于配合度检验,主要用于分析实际频数与某理论频数是否相符。(SPSS中自带了一个例子:cars.sav),
H0:实际频数与理论频数没有显著差异
H1:实际频数与理论频数有显著差异
(二)二项分布(Binomal)
基本功能:适用于二分变量时的情况,常需要检验一个事件在特定的条件下发生的概率是否与已知结论相同,如某地区出生的婴儿的性别比例与通常男女各半的结论是否相符,在这个情况下可用此方法。
H0:特定事件与特定结论没有显著差异
H1:特定事件与特定结论有显著差异
例如:某地某一时期内出生40名婴儿,其中女性12名(定Sex=0),男性28名(定Sex=1)。问这个地方出生婴儿的性比例与通常的男女性比例(总体概率约为0.5)是否不同?
(三)RUN检验(游程检验)
基本功能:用于一个变量的两个值的出现顺序是否随机。
依时间或其他顺序排列的有序数列中,具有相同的事件或符号的连续部分称为一个游程。调用Runs过程可进行游程检验,即用于检验序列中事件发生过程的随机性分析。
H0:数据是随机出现的
H1:数据是非随机的
(四)1- samples k-s检验
称为:单样本柯尔莫哥诺夫—斯米尔诺夫检验柯尔莫哥诺夫—斯米尔诺夫检验。
基本功能:调用此过程可对单样本进行Kolmogorov-Smirnov Z检验,它将一个变量的实际频数分布与正态分布(Normal)、均匀分布(Uniform)、泊松分布(Poisson)进行比较。
零假设H0:经验分布与理论分布没有显著差别。
H1:经验分布与理论分布有显著差别
(五)两个独立样本检验(2-independent samples)
基本功能:当总体分布不清楚时,可检验两个随机样本是事来自同一总体。
H0:两个独立样本来自相同的总体(两个样本没有显著差异)
H1:两个独立样本来自不同的总体(两个样本没有显著差异)
(六)多个独立样本检验(K-independent samples)
H0:多个独立样本来自相同的总体(两个样本没有显著差异)
H1:多个独立样本来自不同的总体(两个样本没有显著差异)
(七)两个相关样本检验(2-related samples)
基本功能是:当总体分布不清楚时,检验两个相关样本是否来自同一总体。与参数检验中的Paired-samples
H0:两个相关样本来自相同的总体(两个样本没有显著差异)
H1:两个相关样本来自不同的总体(两个样本没有显著差异)
(八)多个相关样本检验(K-related samples)
基本功能是:当总体分布不清楚时,检验多个相关样本是否来自同一总体。
H0:多个相关样本来自相同的总体(两个样本没有显著差异)
H1:多个相关样本来自不同的总体(两个样本没有显著差异)
十五、几种重要检验统计量
1.F-stat.(F-distribution ; F-test)F检验的思想来自于总离差平方和的分解式:TSS=ESS+RSS由于回归平方和ESS是解释变量X联合体对被解释变量Y的线性作用的结果,所以,如果ESS/RSS的比值较大,则X的联合体对Y的解释程度高,可认为总体存在线性关系,反之总体上可能不存在线性关系。
其计算公式是
其中K代表变量个数,N代表样本容量,记为则该统计量服从自由度为(k,n-k-1)的F分布。
因此F 值有时也叫均方差比,即F =不能解释的均方差/可以解释的均方差
在统计学上,这个假设检验的假设原理是:
H0:μ1 = μ2 = μ3 ,即它们不存在显著差别。
H1:μ1 ≠ μ2
≠μ3
2. (卡方分布,Chi—square distribution, test; 统计量)。
在统计学中, 统计量常用于列联表中变量之间是否相关的检验,特别适用于两个定类变量之间是否相关的检验。卡方检验是对样本的频数分布所来自的总体分布是否服从某种理论分布或某种假设分布所作的假设检验。即根据样本的频数分布来推断总体的分布。它属于自由分布的非参数检验。它可以处理一个因素分为多种类别,或多种因素各有多种类别的资料。所以,凡是可以应用比率进行检验的资料,都可以用卡方检验。其计算公式是
其中, 表示观察值的频数(observed frequency ); 表示给定单元中的频数理论值,其计算公式是: ;表示给定单元所在行的总和(行:Rank),CT表示给定所在列的总和.(列:Contingency)。
X2的自由度的确定:=(行数-1)*(列数-1).记为X2a(n),n为自由度,a为显著性水平。
如同T分布一样,在不同自由度条件下,卡方分布也不相同,但随着自由度的增加(即样本容量的支扩大)卡方分布趋于对称性的正态分布。检验程序与假设检验理论是一样的。
对变量之间的相关程度的测度主要用相关系数来表示,但对于定类数据之间的相关程度的测定,要借助于,对于定类数据之间的相关程度的测度常用到以下几种:
(1)ψ相关系数, 它是描述2*2列联表数据中相关程度最常用的一种相关系数,计算公式是ψ= ,取值在0到1之间。
(2)列联相关系数(简称Coefficient of contingency)。主要用于大于2*2列联表的情况。计算公式是C= ,取值在0到1之间。
在SPSS中实现卡方检验:Analyze->descriptive statistics->Crosstab,或在“非参数检验中”可以实现。
如何描述两个分类变量间的关系
3.T- stat(T-distribution ; T-test)
(1)
(2)在计量经济学中,T检验常称参数显著性检验
其计算公式是:
原假设:
备择假设:
4. DW检验(d统计量):D-W检验是杜宾(J.Durbin)和瓦森(G.S. Watson)于1951年提出的一种检验序列自相关的方法,这种检验方法是基于残差et和et-1之间的一阶自相关系数提出来的,所以它只适用于检验残差序列的是否存在一阶自相关性的统计量。这从公式中可以看出来。注:残差:模型计算值与资料实测值之差为残差。
表示一阶自关系数,
所以,d≈2(1- )
当 =0时,d=2,表明不存在自相关;
当 =1时,d=0,表示存在完全正相关;
当 =-1时,d=4,表示存在完全负自相关。
经验表明当 ,表明不存在自相关。
4. 拟合优度检验(Testing the Simulation Level):y的理论预测值和真实的样本值的距离越小,拟合度越好。 公式是:
5. Q-statistic。在文献上的Q 统计量有二种版本,Box-Pierce Q 统计量,另一种是适用于样本较小的修正版本Ljung-Box Q 统计量。这两种版本的Q统计量有些微的不同。LB的Q统计量的计算公式是:
其中, 代表从一阶差分中回归中所得到的OLS残差(注意:没有包含截距项的一阶差分形式),而则是水平值形式得到的残差(含有截距项的回归形式)。
6.协整检验( co integration TEST)
定义:定义(协整):设Yt∽I(1),xt∽I(1)。如果存在常数b,使得Yt-bXt为I(0)(平稳时间序列)时,称Yt和Xt之间存在协整关系。
基本思想:Johansen检验的思想就是检验ut和nt是否存在相关的典型变量和有几对相关性较大的典型变量。
协整的检验方法一般有两种,Engle-Granger方法检验方法。E-views提供一个叫约翰森 (Johansen )检验提供了确定协整变量个数的方法,其方法的理论基础是典型相关分析。
步聚:第一步,拟合模型
第二步,拟合模型
第三步:Johansen检验::这不是单独的一个检验,而是一系列的检验,检验从g=0开始。
十六、问卷的信度与效度检验
(一)
社会测量中,作为测量工具的问卷,如果设计不周密、题意不确切、含混或具某种倾向性,其信度必定不高。信度是指可靠性、可信性,指统计结果的稳定性或一致性,可表示在N次调查或度量中有多少次是正确的,或每次调查属于正确的概率是多少。
信度的度量通常是以相关系数表示的,又称信度系数。信度可以分为重(再)测信度(Test-Retest Reliability)、复本信度(Alternate-form Reliability)、内容一致性信度(Internal Consistency Coefficient)、折半信度和同质信度【计算α系数】。
同质信度(Homogeneity reliability)代表所有测验题目的一致性,当各个测验题目得分是正相关时是同质的,当相关性很低时为异质。最常用克朗巴哈(Cronbach)α系数法和Speraman-brown的折半信度S。
α系数法其计算公式是:
α
式中,N为题总数,Si2为第I题内方差,为总分方差,r题间的相关系数的总和一般要求问卷的α系数大于0.70。
可信度 |
Cronbach α系数 |
不可信 |
Cronbach α系数<0.3 |
勉强可信 |
0.3≦Cronbach α系数<0.4 |
可信 |
0.4≦Cronbach α系数<0.5 |
很可信(最常见) |
0.5≦Cronbach α系数<0.7 |
很可信(次常见) |
0.7≦Cronbach α系数<0.9 |
十分可信 |
0.9≦Cronbach α系数 |
信度分析在SPSS中的操作步骤:
(split-half coefficient)信度,也称折半信度s法,常用于态度、意见式问卷的信度分析,它系指采用分半会计所测得的信度系数,通过在调查问卷分为等值的两半、或将项目的单又序号分两半,求这两个各半测验总分之相关系数。斯皮尔曼-布朗(Spearman-Brown)
(二)问卷调查的效度检验(Va l idity)
效度指测量结果与试图达到的目标之间的接近程度, 评价的是偏倚和系统误差问题。分为内容效度、结构效度和表面效度。效度值越高越能反映所要测量值的对象的真正特征。效度应在0.7以上。
结构效度(construct validity)是指测量结果体现出来的某种结构与测值之间的对应程度,它是最重要的评价指标。结构效度分析所采用的方法是因子分析。
内容效度(content validity):问卷内容能在多大程度上覆盖研究目的要求达到的各个方面和领域。与表面效度一样, 同属主观指标。
表面效度(Face
资料:除此之外,你可以用因子分析里面Descriotives里面KMO和巴特利检验(battele,不知道是不是这样写的),KMO的值如果>0.5,则说明因子分析的效度还行,可以进行因子分析;另外,如果巴特利检验的P<0.001,说明因子的相关系数矩阵非单位矩阵,能够提取最少的因子同时又能解释大部分的方差,即效度可以。
用各变量间的相关检验量表的内容效度,根据各变量与总分的相关是否超过各变量间的相关检验量表的结构效度。
标准:各项变量之间的相关大于.40;各因子分与总分的相关也大于.40,且均大于各项因子之间的相关。表明问卷在本次调查中具有较好的内容效度和结构效度。 具体操作是analyze>correlate>bivariate correlations。
十七、相关分析(Correlation analysis)与回归分析(Regression nanlysis)
(一)相关的概念
事物或现象之间存相互联系、相互制约关系,而且所有各种现象之间的相互关系可以通过数量关系反映出来。现象之间的有关系可以通过两种不同类型表示出来,一是函数关系,这种关系是通过严格的数学方程表达出来。二是相关关系,这种关系的具体关系值是不确定的。
(二)相关系数的计算与应用
相关图表对发了解现象之间的相互关系是有用的,但只是初步判断,为了说明现象之间的关系密切程度必须计算相关系数,相关系数的计算方法有很多,最常见的公式是。
其实,相关系数可由拟合度R2得到,即
(三)相关系数的密切程度
当相关系数处于0.3到0.5之间表示是低度相关;
处于0.5到0.8之间是显著相关;
处于0.8以上是高度相关。
(四)回归分析
相关关系仅能说明变量之间相关关系的方向和紧密程度,而不能说明变量之间的数量关系,即当给出某一自变量的数值时不能根据相关系数确定或估计因变量发生的值。回归分析就是对具有相关关系的变量之间数量变化的一般关系进行测定,确定一个相关的数学表达式,以便于进行估计或预测的统计方法。
(五)回归分析与相关分析的区别
回归分析和相关分析都是研究变量之间的关系,在实际应用中,两种分析方法经常相互结合渗透和结合,但在研究重点方面却有所不同:(1)在回归分析中,变量Y称为因变量,处在被解释的特殊地位,而在相关分析中,变量X和Y处于相同的地位;(2)相关分析的重点是研究变量之间的关系及关系密切程度,而回归分析中,不仅可以揭示变量x对变量Y的影响大小,还可以由回归方程进行预测和控制。
(六)简单相关系数和偏相关系数(PAC)
只计算两个变量之间的线性关联程度的相关系数可以称为简单相关,对于三个或三个以上变量之间关系的系数,就是引入偏相关系数(Partial correalation coefficient).
偏相关系数可以这样定义:
表示在X3不变的条件下,X1,X2的偏相关系数。
表示在X2不变的条件下,X1,X3的偏相关系数。
同理,表示在X3,X4不变的条件下,X1,X2的偏相关系数。
计算公式是:
(七)自相关或序列相关
自相关(Auto correlation )和序列相关(Serial correlation)在许多文献中看作同义语,它所表达的意思是:按时间(在时间序列数据中)或空间(在横截面数据中)的排序的观测值序列的误差项之间的存在相关。
在经典的线性模型中,假设在误差项Ui之间不存在自相关,用符号表示就是
E(Ui,Uy)=0或者是COV(Ui,Uy)=0,当E(Ui,Uy)≠0,则表示存在自关。
自相关检验,用以检测是否存在自相关用d统计量,DW统计量。
其计算公式是: .
它不外是相继残差的差异平方和与RSS之比,它有一个缺陷就是只能检验一阶相关自相关,经验表明当 ,表明不存在自相关。
发现存在自相关采用广义最小二乘法(GLS)。
(八)距离相关(Distances correlation )
基本功能:调用此过程可对变量内部各观察单位间的数值进行距离相关分析,以考察相互间的接近程度;也可对变量间进行距离相关分析,常用于考察预测值对实际值的拟合优度。
在SPSS中,有两个选项:Between cases表示作变量内部观察值之间的距离相关分析,Between variables表示作变量之间的距离相关分析;
在Measure栏中有两种测距方式:Dissimilarities为不相似性测距,Similarities为相似性测距。若选Dissimilarties并点击Measure...钮,弹出Distance:Dissimilarity Measure对话框(图7.6),用户可根据数据特征选用测距方法。
(九)复相关系数(coefficient of multiple correlation)
复相关系数是度量复相关程度的指标,它旨在研究一个随机变量与多个随机变量之间的线形相关关系。它可利用单相关系数和偏相关系数求得。复相关系数越大,表明要素或变量之间的线性相关程度越密切。做多元回归,即可求出复相关系数。在SPSS中,Statistics->Regression->Linear...
结果中的Multiple R的值就是复相关系数。
(十)交互相关(Cross correlation)
是指第一个序列与另一个序列移动形式的综合点积。当两序列彼此反向移动而不具备相关性时,可认为该序列具有较好的互相关属性。
(十一)斯皮尔曼等级相关系数rs(次重点)
1.识记:(1)斯皮尔曼等级相关系数rs计算公式:
n 6∑di 2 i=1 n(n2-1) |
rs=1- |
(2)rs检验的原假设:H0:总体中变量x与变量y等级相关:ρs=0
(3)rs检验的统计量及其分布:
t=
(4)rs双边检验拒绝域:t>tα/2 或t<-tα/2
2.理解:(1)rs的取值范围讨论:在完全相关情况下,rs =±1;一般情况下,rs取值在[-1,+1]之间;(2)rs仅适用于变量没有相同等级或只有少量的相同等级。
3.应用:(1)rs计算;(2)rs统计检验。
(三)其他等级相关系数(一般)
1.识记:(1)肯氏τ系数系列系数计算公式;(2)d系数计算公式
2.理解:(1)肯氏τ系数系列系数的适用性;(2)Gamma系数与d系数的比较
3.应用:(1)肯氏τ系数系列系数的计算;(2)d系数的计算
十八、回归分析、方差分析与相关分析的关系
方差分析也可以用于回归当中,其最重要的用途就是通过逐步引入法选择重要的解释变量,综合运用回归法,相关分析法和方差分析法,有利于构造更好的多元线性回模型。
F=
通过变换,可以得到
(一)回归分析的系数
在回归方程中,回归系数的大小依赖于自变量与因变量的变化尺度(如标准差)的大小,如果自变量的标准差与自变量的标准相差太大,则会导致回归系数低估,一个解决的办法就是自变量和因变量先进行标准化,即转化成z分数后再进行回归。所以就有了“非标准化系数”和“标准化系数”之分。
(二)相关分析
在SPSS中,关于相关分析在三个选项
1.Pearson积差相关系数:功能是计算相关系数并作显著性检验,适用于两列变量均为正态分布的连续型变量。
统计英汉对照表
2. Partial correlation (PC)偏相关:
3.correlogram :相关图。
4. iterations:重复
5. convergence: 会合
6 .inverse 倒数的
7.iterate 迭代
8.cofidence interval:置信区间
9.intervel estimate:区间估计
10.Point
11、intercept:截距
12.compare mean: 均值比较
13.one-sample T test: 单样本T检验. 调用此过程可完成样本均值与总体均值之间的比较。
14.independent-sample T test: 两独立样本T检验. 调用此过程可完成两个两个独立样本数据的均值比较。
15.paired-sample T test: 两配对样本T检验. 调用此过程可完成两个配对样本数据的均值比较, 与独立样本不同,配对样本之间具有相关性。
16. critical value:临界值
17. one-tailed test:单边检验
18. two-tailed test: 双边检验
19.p-value:P-值
20.Histogram and stat 直方图和统计