stata常命令集合2
(2015-05-26 13:23:02)
标签:
股票 |
聚类分析:
cluster kmeans y x1 x2 x3, k(3)
——依据y、x1、x2、x3,将样本分为n类,聚类的核为随机选取
cluster kmeans y x1 x2 x3, k(3) measure(L1) start(everykth)
—— "start"用于确定聚类的核,"everykth"表示将通过构造三组样本获得聚类核:构造方法为将样本id为1、1+3、1+3×2、 1+3×3……分为一组、将样本id为2、2+3、2+3×2、2+3×3……分为第二组,以此类推,将这三组的均值作为聚类的核;"measure"用 于计算相似性和相异性的方法,"L1"表示采用欧式距离的绝对值,也直接可采用欧式距离(L2)和欧式距离的平方(L2squared)。PS:这个方法 所得的结果与SPSS所得结果相同。
sort c1 c2(对c1和c2两个分类变量排序)
by c1 c2:reg y x1 x2 x3(在c1、c2的各个水平上分别进行回归)
bysort c1 c2:reg y x1 x2 x3 if c3=1(逗号前面相当于将上面两步骤合一,既排序又回归,逗号后面的“if c3=1”表示只有在c3=1的情况下才进行回归)
stepwise, pr(.2): reg y x1 x2 x3(使用Backward selection,去除P值大于0.2时变量)
stepwise, pe(.2): reg y x1 x2 x3(使用forward selection,去除P值小于0.2时变量)
stepwise, pr(.2) pe(.01):reg y x1 x2 x3(使用backward-stepwise selection,取P值在0.01和0.2之间的变量)
stepwise, pe(.2) forward: reg y x1 x2 x3(使用forward-stepwise selection)
reg y x1 x2 x3
predict Yhat,xb
predict u,resid
predict ustd,stdr(获得残差的标准误)
predict std,stdp(获得y估计值的标准误)
predict stdf,stdf(获得y预测值的标准误)
predict e,e(1,12)(获得y在1到12之间的估计值)
predict p,pr(1,12)(获得y在1到12之间的概率)
predict rstu,rstudent(获得student的t值)
predict lerg,leverage(获得杠杆值)
predict ckd,cooksd(获得cooksd)
reg y x1 x2 x3 c1 c2
adjust x1 x2 x3,se(使得变量x1、x2和x3等于其均值,求y的预测值和标准误)
adjust x1 x2 x3,stdf ci(使得变量x1、x2和x3等于其均值,求y的预测值,预测标准误和置信区间)
adjust x1 x2,by(c1) se ci(控制变量x1、x2,亦即取它们的均值,在分类变量c1的不同水平上求y预测值,标准误和置信区间)
adjust x1 x2 x3,by(c1) stdf ci(控制变量x1、x2、x3,亦即取它们的均值,在分类变量c1的不同水平上求y预测值,预测标准误和置信区间)
adjust x1 x2,by(c1 c2) se ci(控制变量x1、x2,在分类变量c1、c2的不同水平上求y的预测值,标准误和置信区间)
adjust x1 x2 x3,by(c1 c2) stdf ci(控制变量x1、x2、x3,在分类变量c1、c2的不同水平上求y的预测值,预测标准误和置信区间)
adjust x1=a x2=b x3=c,se ci(当x1=a、x2=b、x3=c时,求y的预测值、标准误和置信区间)
adjust x1=a x2=b x3=c,by(c1) se ci(当x1=a、x2=b、x3=c时,在分类变量c1的不同水平上,求y的预测值、标准误和置信区间)
adjust x1=a x2=b c1=1,by(c1) se ci(当x1=a、x2=b,并假设所有的样本均为c1=1,求在分类变量c1的不同水平上,因为变量x3的均值不同,而导致的y的不同的预测值……)
mvreg Y1 Y2 ……: X1 X2 X3……(多元回归)
mvreg y1 y2 y3: x1 x3 x3(多元回归分析,y1 y2 y3为因变量,x1 x3 x3为自变量)
以下命令只有在进行了mvreg之后才能进行
test [y1](测试对y1的回归系数联合为0)
test [y1]: x1 x2(测试对y1的回归中x1、x2的系数为0)
test x1 x2 x3(测试在所有的回归中,x1、x2、x3的系数均为0)
test [y1=y2](对y1的回归和对y2的回归系数相等)
test [y1=y2]: x1 x2 x3, mtest(对y1和y2的回归中,分别测试x1、x2、x3的系数是否相等,若没有mtest这个命令,则测试他们的联和统计)
test [y1=y2=y3](三个回归的系数是否相等,可加mtest以分别测试)
test [y1=y2=y3]: x1 x2 (测试三个回归中的x1、x2是否相等,可加mtest)
est命令的用法:
(1)储存回归结果:
reg y x1 x2 x3(不限于reg,也可储存ivreg、mvreg、reg3)
est store A
(2)重现回归结果:
est replay A
(3)对回归结果进行进一步分析
est for A:sum(对A回归结果中的各个变量运行sum命令)
异方差问题:
获得稳健性标准误
reg y x1 x2 x3 if c1==1(当分类变量c1=1时,进行y和诸x的回归)
reg y x1 x2 x3,robust(回归后显示各个自变量的异方差-稳健性标准误)
estat vif(回归之后获得VIF)
estat hettest,mtest(异方差检验)
异方差检验的套路:
(1)Breusch-pagan法:
reg y x1 x2 x3
predict u,resid
gen usq=u^2
reg usq x1 x2 x3
求F值
display R/(1-R)*n2/n1(n1表示分子除数,n2表示分母除数)
display Ftail(……)
求LM值
display R*n(n表示总样本量)
display chi2tail(……)
(2)white法:
reg y x1 x2 x3
predict u,resid
gen usq=u^2
predict y
gen ysq=y^2
reg usq y ysq
求F值
display R/(1-R)*n2/n1(n1表示分子除数,n2表示分母除数)
display Ftail(……)
求LM值
display R*n(n表示总样本量)
display chi2tail(……)
(3)必要补充
F值和LM值转换为P值的命令:
display Ftail(n1,n2,a)(利用F值求p值,n1表示分子除数,n2表示分母除数,a为F值)
display chi2tail(n3,b)(利用LM值求p值,n3表示自由度的损失量,一般等于n1,b为LM值)
异方差的纠正——WLS(weighted least square estimator)
(1)基本思路:
reg y x1 x2 x3 [aw=x1](将x1作为异方差的来源,对方程进行修正)
上式相当于:
reg y/(x1^0.5) 1/(x1^0.5) x1/(x1^0.5) x2/(x1^0.5) x3/(x1^0.5),noconstant
(2)纠正异方差的常用套路(构造h值)
reg y x1 x2 x3
predict u,resid
gen usq=u^2
gen logusq=log(usq)
reg logusq x1 x2 x3
predict g
gen h=exp(g)
reg y x1 x2 x3 [aw=1/h]
异方差hausman检验:
reg y x1 x2 x3
est store A(将上述回归结果储存到A中)
reg y x1 x2 x3 [aw=1/h]
est store B
hausman A B
当因变量为对数形式时(log(y))如何预测y
reg logy x1 x2 x3
predict k
gen m=exp(k)
reg y m,noconstant
m的系数为i
y的预测值=i×exp(k)
方差分析:
一元方差分析
anova y g1 / g1|g2 /(g*表示不同分类变量,计算g1和交互项/ g1|g2 /这两种分类的y值是否存在组内差异)
anova y d1 d2 d1*d2(d*表示虚拟变量,计算d1、d2和d1*d2的这三种分类的y值是否有组内差异)
anova y d1 d2 x1 d2*x1, continuous(x1)(x*表示连续的控制变量)
多元方差分析
webuse jaw
manova y1 y2 y3 = gender fracture gender*fracture(按性别、是否骨折及二者的交互项对y1、y2和y3进行方差分析)
manova y1 = gender fracture gender*fracture(相当于一元方差分析,以y1为因变量)
————————————
webuse nobetween
gen mycons = 1
manova test1 test2 test3 = mycons, noconstant
mat c = (1,0,-1 \ 0,1,-1)
manovatest mycons, ytransform(c)
进行多元回归的方法:
多元回归分析:(与mvreg相同)
foreach vname in y1 y2 y3 { (确定y变量组vname)
reg `vname' x1 x2 x3 (将y变量组中的各个变量与诸x变量进行回归分析,注意vname的标点符号)
}
上式等价于:
mvreg y1 y2 y3 = x1 x2 x3
reg3命令:
(1)简单用法:
reg3 (y1 = x1 x2 x3) (y2 = x1 x3 x4) (y3 = x1 x2 x5)
测试y1 coefs = 0
test [y1]
测试不同回归中相同变量的系数:
test [y1=y2=y3], common
test ([y1=y2]) ([y1=y3]), common constant(constant表示包含截距项)
(2)用reg3进行2SLS
reg3 (y1 = y2 x1 x2) (y2 = y1 x4),2sls
(2)用reg3进行OLS
reg3 (y1 = y2 x1 x2) (y2 = y1 x4),ols
对两个回归结果进行hausman检验:
reg3 (y1=x1 x2 x3)(y2=y1 x4),2sls
est store twosls
reg3 (y1=x1 x2 x3)(y2=y1 x4),ols
est store ols
hausman twosls ols,equations(1:1)(对两次回归中的方程1,即“y1=x1 x2 x3”进行hausman检验)
hausman twosls ols,equations(2:2)(对两次回归中的方程2,即“y2=y1 x4”进行hausman检验)
hausman twosls ols,alleqs(对所有方程一起进行检验)
检验忽略变量(模型的RESET):
reg y x1 x2 x3
estat ovtest
滞后变量的制取
对变量y滞后一期:
gen y_l1=y[_n-1]
滞后两期:
gen y_l2=y[_n-2]
以此类推。
制取样本序号:
gen id=_n
获得样本总量:
gen id=_N
时间序列回归:
回归元严格外生时AR(1)序列相关的检验
reg y x1 x2
predict u,resid
gen u_1=u[_n-1]
reg u u_1,noconstant
回归之后,u_1的序数如果不异于零,则该序列不相关
用Durbin-Watson Statistics检验序列相关:
tsset year @(对时间序列回归中代表时间的变量进行定义)@
reg y x1 x2
dwstat @(求出时间序列回归的DW值)@
durbina @(对该回归是否具有序列相关进行检验,H0为无序列相关,可根据chi2值求出P值)@
durbina,small @(small可以根据F值求出P值,以代替chi2值)@
durbina,force @(让检验能在robust、neway之后进行)@
durbina,small lag(1/10) @(lag可以求出更高阶滞后的序列相关,如本例中可求出1到10阶的序列相关)@
durbina,robust lag(1/10) @(robust可进行异方差—稳健性回归,避免未知形式的异方差)@
bgodfrey @(利用Breusch-Godfrey test求出高阶序列相关)@
bgodfrey,small lag(1/10)
数据调查:survey data
源数据:dataset文件夹中的svydata
步骤:
1、定义survey data
svyset psuid [pweight=finalwgt], strata(stratid)
——定义primary sampling unit为psuid。可能是测试的编号,1or2
——定义pweight为finalwgt
——定义stratum identifer为stratid。可能是测试中被试的编号,1to31
2、生成male
gen male= (sex==1) if !missing(sex)
——当sex不缺失且等于1时,male=sex
3、生成行变量为highbp,列变量为sizplace的表格
svy, subpop(male): tabulate highbp sizplace, col obs pearson lr null wald
——subpop规定了以male为数据调查的范围
——tabulate highbp sizplace表示绘制行变量为highbp,列变量为sizplace的表格
——col表示每一列的加总为100%,row表示每一行的加总为100%,cell表示横纵所有单元格的加总为100%
——obs表示列出每个单元格的样本量,se表示列出每个单元格的标准误,ci表示列出每个单元格的置信区间
——pearson表示求取pearson's chi-squired,皮尔逊的卡方检定
——lr表示求取likelihood ratio
——null表示求取null-based statistics
——wald表示求取adjusted wald,llwald表示求取adjusted log-linear Wald,noadjust表示求取unadjusted Wald statistics
4、svy:mean x1 x2 x3
——对x1、x2、x3求取mean、se和ci
5、简单的tabulate twoway(不用svyset就可执行)
tab2 y x,col chi2 exact lr
——col、cell、row等均可换用,chi2指的是Pearson's chi-squared、exact指的是fisher exact test、lr指的是likelihood-ratio chi-squared
6、svy的其他用法:
svy:reg y x
建立人工数据集:
创建一个包含从独立标准正态分布中抽取的2000个观察案例和三个随机Z1、Z2、Z3,并分别定义他们的平均值和标准差。
matrix m=(0,2,3) ——定义三个变量的平均值
matrix sd=(1,.5,2) ——定义三个变量的标准差
drawnorm z1 z2 z3,n(2000) means(m) sds(sd) ——创建样本量为2000,均值和标准差符合上面定义的数据集
补充:除了定义均值和标准差之外,还可定义相关矩阵和协方差矩阵等。
logit回归
logit y x1 x2 x3
——y必须为二分变量
glogit outcomedata populationdata x1 x2 x3
——outcomedata为目标样本总量,populationdata为观测样本总量,outcomedata/populationdata的值便是一个概率,相当于logit命令中的y
面板数据(Panel Data)
1、基本套路:
xtreg y x1 x2,re
est store re
xtreg y x1 x2,fe
est store fe
hausman re fe
——如果hausman检验的结果为显著,则采用固定效应(fe)模型,不显著,则选取随机效应(re)模型
2、随机效应的检验:
xtreg y x1 x2,re
xttest0
xttest1
——xttest1是xttest0的扩展,若这xttest0的结果为显著,则采用随机效应(re)模型
xttest1的假设是没有随机效应和/或没有序列相关,它的七个结果分别表示:
1) LM Test for random effects, assuming no serial correlation
(假设没有序列相关情况下对随机效应进行LM检验)
2) Adjusted LM test for random effects, which works even under serial
correlation
(假设有序列相关的情况下对随机LM检验)
3) One sided version of the LM test for random effects
(假设没有序列相关的情况下对随机效应进行单边检验)
4) One sided version of the adjusted LM test for random effects
(假设有序列相关的情况下对随机效应进行单边检验)
5) LM test for first-order serial correlation, assuming no random effects
(假设没有随机效应的情况下对一阶序列相关进行检验)
6) Adjusted test for first-order serial correlation, which works even under
random effects
(假设有随机效应的情况下对一阶序列相关进行检验)
7) LM Joint test for random effects and serial correlation
(随机效应和序列相关的联合检验)
3、固定效应模型,可采用广义最小二乘法(gls)进行估算,也可采用固定效应方程(fe):
xtserial y x1 x2
xtgls y x1 x2
xttest2
xttest3
——xtserial用于检验固定效应模型中的一阶序列自相关,可通用于xtgls和fe之前
——xttest2用于检验不同厂商的相似性,若显著则各厂家的截面相似,可通用于xtgls和fe之后
——xttest3用于检验固定效应模型中的异方差问题,若显著则有异方差,可通用于xtgls和fe之后
cluster kmeans y x1 x2 x3, k(3)
——依据y、x1、x2、x3,将样本分为n类,聚类的核为随机选取
cluster kmeans y x1 x2 x3, k(3) measure(L1) start(everykth)
—— "start"用于确定聚类的核,"everykth"表示将通过构造三组样本获得聚类核:构造方法为将样本id为1、1+3、1+3×2、 1+3×3……分为一组、将样本id为2、2+3、2+3×2、2+3×3……分为第二组,以此类推,将这三组的均值作为聚类的核;"measure"用 于计算相似性和相异性的方法,"L1"表示采用欧式距离的绝对值,也直接可采用欧式距离(L2)和欧式距离的平方(L2squared)。PS:这个方法 所得的结果与SPSS所得结果相同。
sort c1 c2(对c1和c2两个分类变量排序)
by c1 c2:reg y x1 x2 x3(在c1、c2的各个水平上分别进行回归)
bysort c1 c2:reg y x1 x2 x3 if c3=1(逗号前面相当于将上面两步骤合一,既排序又回归,逗号后面的“if c3=1”表示只有在c3=1的情况下才进行回归)
stepwise, pr(.2): reg y x1 x2 x3(使用Backward selection,去除P值大于0.2时变量)
stepwise, pe(.2): reg y x1 x2 x3(使用forward selection,去除P值小于0.2时变量)
stepwise, pr(.2) pe(.01):reg y x1 x2 x3(使用backward-stepwise selection,取P值在0.01和0.2之间的变量)
stepwise, pe(.2) forward: reg y x1 x2 x3(使用forward-stepwise selection)
reg y x1 x2 x3
predict Yhat,xb
predict u,resid
predict ustd,stdr(获得残差的标准误)
predict std,stdp(获得y估计值的标准误)
predict stdf,stdf(获得y预测值的标准误)
predict e,e(1,12)(获得y在1到12之间的估计值)
predict p,pr(1,12)(获得y在1到12之间的概率)
predict rstu,rstudent(获得student的t值)
predict lerg,leverage(获得杠杆值)
predict ckd,cooksd(获得cooksd)
reg y x1 x2 x3 c1 c2
adjust x1 x2 x3,se(使得变量x1、x2和x3等于其均值,求y的预测值和标准误)
adjust x1 x2 x3,stdf ci(使得变量x1、x2和x3等于其均值,求y的预测值,预测标准误和置信区间)
adjust x1 x2,by(c1) se ci(控制变量x1、x2,亦即取它们的均值,在分类变量c1的不同水平上求y预测值,标准误和置信区间)
adjust x1 x2 x3,by(c1) stdf ci(控制变量x1、x2、x3,亦即取它们的均值,在分类变量c1的不同水平上求y预测值,预测标准误和置信区间)
adjust x1 x2,by(c1 c2) se ci(控制变量x1、x2,在分类变量c1、c2的不同水平上求y的预测值,标准误和置信区间)
adjust x1 x2 x3,by(c1 c2) stdf ci(控制变量x1、x2、x3,在分类变量c1、c2的不同水平上求y的预测值,预测标准误和置信区间)
adjust x1=a x2=b x3=c,se ci(当x1=a、x2=b、x3=c时,求y的预测值、标准误和置信区间)
adjust x1=a x2=b x3=c,by(c1) se ci(当x1=a、x2=b、x3=c时,在分类变量c1的不同水平上,求y的预测值、标准误和置信区间)
adjust x1=a x2=b c1=1,by(c1) se ci(当x1=a、x2=b,并假设所有的样本均为c1=1,求在分类变量c1的不同水平上,因为变量x3的均值不同,而导致的y的不同的预测值……)
mvreg Y1 Y2 ……: X1 X2 X3……(多元回归)
mvreg y1 y2 y3: x1 x3 x3(多元回归分析,y1 y2 y3为因变量,x1 x3 x3为自变量)
以下命令只有在进行了mvreg之后才能进行
test [y1](测试对y1的回归系数联合为0)
test [y1]: x1 x2(测试对y1的回归中x1、x2的系数为0)
test x1 x2 x3(测试在所有的回归中,x1、x2、x3的系数均为0)
test [y1=y2](对y1的回归和对y2的回归系数相等)
test [y1=y2]: x1 x2 x3, mtest(对y1和y2的回归中,分别测试x1、x2、x3的系数是否相等,若没有mtest这个命令,则测试他们的联和统计)
test [y1=y2=y3](三个回归的系数是否相等,可加mtest以分别测试)
test [y1=y2=y3]: x1 x2 (测试三个回归中的x1、x2是否相等,可加mtest)
est命令的用法:
(1)储存回归结果:
reg y x1 x2 x3(不限于reg,也可储存ivreg、mvreg、reg3)
est store A
(2)重现回归结果:
est replay A
(3)对回归结果进行进一步分析
est for A:sum(对A回归结果中的各个变量运行sum命令)
异方差问题:
获得稳健性标准误
reg y x1 x2 x3 if c1==1(当分类变量c1=1时,进行y和诸x的回归)
reg y x1 x2 x3,robust(回归后显示各个自变量的异方差-稳健性标准误)
estat vif(回归之后获得VIF)
estat hettest,mtest(异方差检验)
异方差检验的套路:
(1)Breusch-pagan法:
reg y x1 x2 x3
predict u,resid
gen usq=u^2
reg usq x1 x2 x3
求F值
display R/(1-R)*n2/n1(n1表示分子除数,n2表示分母除数)
display Ftail(……)
求LM值
display R*n(n表示总样本量)
display chi2tail(……)
(2)white法:
reg y x1 x2 x3
predict u,resid
gen usq=u^2
predict y
gen ysq=y^2
reg usq y ysq
求F值
display R/(1-R)*n2/n1(n1表示分子除数,n2表示分母除数)
display Ftail(……)
求LM值
display R*n(n表示总样本量)
display chi2tail(……)
(3)必要补充
F值和LM值转换为P值的命令:
display Ftail(n1,n2,a)(利用F值求p值,n1表示分子除数,n2表示分母除数,a为F值)
display chi2tail(n3,b)(利用LM值求p值,n3表示自由度的损失量,一般等于n1,b为LM值)
异方差的纠正——WLS(weighted least square estimator)
(1)基本思路:
reg y x1 x2 x3 [aw=x1](将x1作为异方差的来源,对方程进行修正)
上式相当于:
reg y/(x1^0.5) 1/(x1^0.5) x1/(x1^0.5) x2/(x1^0.5) x3/(x1^0.5),noconstant
(2)纠正异方差的常用套路(构造h值)
reg y x1 x2 x3
predict u,resid
gen usq=u^2
gen logusq=log(usq)
reg logusq x1 x2 x3
predict g
gen h=exp(g)
reg y x1 x2 x3 [aw=1/h]
异方差hausman检验:
reg y x1 x2 x3
est store A(将上述回归结果储存到A中)
reg y x1 x2 x3 [aw=1/h]
est store B
hausman A B
当因变量为对数形式时(log(y))如何预测y
reg logy x1 x2 x3
predict k
gen m=exp(k)
reg y m,noconstant
m的系数为i
y的预测值=i×exp(k)
方差分析:
一元方差分析
anova y g1 / g1|g2 /(g*表示不同分类变量,计算g1和交互项/ g1|g2 /这两种分类的y值是否存在组内差异)
anova y d1 d2 d1*d2(d*表示虚拟变量,计算d1、d2和d1*d2的这三种分类的y值是否有组内差异)
anova y d1 d2 x1 d2*x1, continuous(x1)(x*表示连续的控制变量)
多元方差分析
webuse jaw
manova y1 y2 y3 = gender fracture gender*fracture(按性别、是否骨折及二者的交互项对y1、y2和y3进行方差分析)
manova y1 = gender fracture gender*fracture(相当于一元方差分析,以y1为因变量)
————————————
webuse nobetween
gen mycons = 1
manova test1 test2 test3 = mycons, noconstant
mat c = (1,0,-1 \ 0,1,-1)
manovatest mycons, ytransform(c)
进行多元回归的方法:
多元回归分析:(与mvreg相同)
foreach vname in y1 y2 y3 { (确定y变量组vname)
reg `vname' x1 x2 x3 (将y变量组中的各个变量与诸x变量进行回归分析,注意vname的标点符号)
}
上式等价于:
mvreg y1 y2 y3 = x1 x2 x3
reg3命令:
(1)简单用法:
reg3 (y1 = x1 x2 x3) (y2 = x1 x3 x4) (y3 = x1 x2 x5)
测试y1 coefs = 0
test [y1]
测试不同回归中相同变量的系数:
test [y1=y2=y3], common
test ([y1=y2]) ([y1=y3]), common constant(constant表示包含截距项)
(2)用reg3进行2SLS
reg3 (y1 = y2 x1 x2) (y2 = y1 x4),2sls
(2)用reg3进行OLS
reg3 (y1 = y2 x1 x2) (y2 = y1 x4),ols
对两个回归结果进行hausman检验:
reg3 (y1=x1 x2 x3)(y2=y1 x4),2sls
est store twosls
reg3 (y1=x1 x2 x3)(y2=y1 x4),ols
est store ols
hausman twosls ols,equations(1:1)(对两次回归中的方程1,即“y1=x1 x2 x3”进行hausman检验)
hausman twosls ols,equations(2:2)(对两次回归中的方程2,即“y2=y1 x4”进行hausman检验)
hausman twosls ols,alleqs(对所有方程一起进行检验)
检验忽略变量(模型的RESET):
reg y x1 x2 x3
estat ovtest
滞后变量的制取
对变量y滞后一期:
gen y_l1=y[_n-1]
滞后两期:
gen y_l2=y[_n-2]
以此类推。
制取样本序号:
gen id=_n
获得样本总量:
gen id=_N
时间序列回归:
回归元严格外生时AR(1)序列相关的检验
reg y x1 x2
predict u,resid
gen u_1=u[_n-1]
reg u u_1,noconstant
回归之后,u_1的序数如果不异于零,则该序列不相关
用Durbin-Watson Statistics检验序列相关:
tsset year @(对时间序列回归中代表时间的变量进行定义)@
reg y x1 x2
dwstat @(求出时间序列回归的DW值)@
durbina @(对该回归是否具有序列相关进行检验,H0为无序列相关,可根据chi2值求出P值)@
durbina,small @(small可以根据F值求出P值,以代替chi2值)@
durbina,force @(让检验能在robust、neway之后进行)@
durbina,small lag(1/10) @(lag可以求出更高阶滞后的序列相关,如本例中可求出1到10阶的序列相关)@
durbina,robust lag(1/10) @(robust可进行异方差—稳健性回归,避免未知形式的异方差)@
bgodfrey @(利用Breusch-Godfrey test求出高阶序列相关)@
bgodfrey,small lag(1/10)
数据调查:survey data
源数据:dataset文件夹中的svydata
步骤:
1、定义survey data
svyset psuid [pweight=finalwgt], strata(stratid)
——定义primary sampling unit为psuid。可能是测试的编号,1or2
——定义pweight为finalwgt
——定义stratum identifer为stratid。可能是测试中被试的编号,1to31
2、生成male
gen male= (sex==1) if !missing(sex)
——当sex不缺失且等于1时,male=sex
3、生成行变量为highbp,列变量为sizplace的表格
svy, subpop(male): tabulate highbp sizplace, col obs pearson lr null wald
——subpop规定了以male为数据调查的范围
——tabulate highbp sizplace表示绘制行变量为highbp,列变量为sizplace的表格
——col表示每一列的加总为100%,row表示每一行的加总为100%,cell表示横纵所有单元格的加总为100%
——obs表示列出每个单元格的样本量,se表示列出每个单元格的标准误,ci表示列出每个单元格的置信区间
——pearson表示求取pearson's chi-squired,皮尔逊的卡方检定
——lr表示求取likelihood ratio
——null表示求取null-based statistics
——wald表示求取adjusted wald,llwald表示求取adjusted log-linear Wald,noadjust表示求取unadjusted Wald statistics
4、svy:mean x1 x2 x3
——对x1、x2、x3求取mean、se和ci
5、简单的tabulate twoway(不用svyset就可执行)
tab2 y x,col chi2 exact lr
——col、cell、row等均可换用,chi2指的是Pearson's chi-squared、exact指的是fisher exact test、lr指的是likelihood-ratio chi-squared
6、svy的其他用法:
svy:reg y x
建立人工数据集:
创建一个包含从独立标准正态分布中抽取的2000个观察案例和三个随机Z1、Z2、Z3,并分别定义他们的平均值和标准差。
matrix m=(0,2,3) ——定义三个变量的平均值
matrix sd=(1,.5,2) ——定义三个变量的标准差
drawnorm z1 z2 z3,n(2000) means(m) sds(sd) ——创建样本量为2000,均值和标准差符合上面定义的数据集
补充:除了定义均值和标准差之外,还可定义相关矩阵和协方差矩阵等。
logit回归
logit y x1 x2 x3
——y必须为二分变量
glogit outcomedata populationdata x1 x2 x3
——outcomedata为目标样本总量,populationdata为观测样本总量,outcomedata/populationdata的值便是一个概率,相当于logit命令中的y
面板数据(Panel Data)
1、基本套路:
xtreg y x1 x2,re
est store re
xtreg y x1 x2,fe
est store fe
hausman re fe
——如果hausman检验的结果为显著,则采用固定效应(fe)模型,不显著,则选取随机效应(re)模型
2、随机效应的检验:
xtreg y x1 x2,re
xttest0
xttest1
——xttest1是xttest0的扩展,若这xttest0的结果为显著,则采用随机效应(re)模型
xttest1的假设是没有随机效应和/或没有序列相关,它的七个结果分别表示:
1) LM Test for random effects, assuming no serial correlation
(假设没有序列相关情况下对随机效应进行LM检验)
2) Adjusted LM test for random effects, which works even under serial
correlation
(假设有序列相关的情况下对随机LM检验)
3) One sided version of the LM test for random effects
(假设没有序列相关的情况下对随机效应进行单边检验)
4) One sided version of the adjusted LM test for random effects
(假设有序列相关的情况下对随机效应进行单边检验)
5) LM test for first-order serial correlation, assuming no random effects
(假设没有随机效应的情况下对一阶序列相关进行检验)
6) Adjusted test for first-order serial correlation, which works even under
random effects
(假设有随机效应的情况下对一阶序列相关进行检验)
7) LM Joint test for random effects and serial correlation
(随机效应和序列相关的联合检验)
3、固定效应模型,可采用广义最小二乘法(gls)进行估算,也可采用固定效应方程(fe):
xtserial y x1 x2
xtgls y x1 x2
xttest2
xttest3
——xtserial用于检验固定效应模型中的一阶序列自相关,可通用于xtgls和fe之前
——xttest2用于检验不同厂商的相似性,若显著则各厂家的截面相似,可通用于xtgls和fe之后
——xttest3用于检验固定效应模型中的异方差问题,若显著则有异方差,可通用于xtgls和fe之后
前一篇:转:常用的STATA命令集合
后一篇:[转载]广义线性模型