stata 描述性统计
(2012-12-17 22:01:27)
标签:
it |
描述统计
describe
describe命令可以描述数据文件的整体,包括观测总数,变量总数,生成日期,每个变量的存储类型(storage
type),标签(label)等。
list [varlist] [if exp] [in range]
summarize [varlist] [weight] [if exp] [in range] [,detail]
summarize可以提供varlist指定变量(可以不止一个)的如下统计量:Percentiles(分位数),四大最大的数和四个最小的数,Variance(方差),Std.
Dev.(标准差),Skewness(偏度),Kurtosis(斜度)
tabstat
tabstat varlist [weight] [if exp] [in range] [, stats(statname
[...]) ]
tabstat提供[, stats(statname [...])
]指定的统计量,可供选择的有mean(均值),count(非缺失观测值个数),sum(总和),max(最大值),min(最小值),range(最大值-最小值),sd(标准差),var(方差),cv(变易系数=标准差/均值),skewness(偏度),kurtosis(斜度),median(中位数),p1(1%分位数,类似地有p5,
p10, p25, p50, p75, p95,
p99),iqr(interquantile range = p75 – p25)。
比如,想知道变量pop在整个样本的均值和方差,可以使用如下命令:
tabstat pop, stats(mean var)
anova命令
anova y x1 x2
anova 做方差分析(analysis of variance),研究y的平均值在分类变量x1和x2不同取值之间的差异。
signrank命令
signrank y1=y2
signrank做Wilcoxon秩检验。
signtest命令
signtest y1=y2
秩检验,检验变量y1和y2的中值是否相等。检验y1的中值是否为5可用如下命令
signtest y1=5
ttest命令
ttest y1=y2
检验变量y1和y2的平均值是否相等。检验y1的平均值是否为5可用如下命令
ttest y1=5
correlate命令
correlate [varlist] [weight] [if exp] [in range]
correlate计算varlist中变量(两两)之间的相关系数。