一、Stata数据挖掘软件介绍
Stata 是一套提供其使用者数据分析、数据管理以及绘制专业图表的完整及整合性统计软件。它提供许许多多功能,包含线性混合模型、均衡重复反复及多项式普罗比模式。新版本的STATA采用最具亲和力的窗口接口,使用者自行建立程序时,软件能提供具有直接命令式的语法。Stata提供完整的使用手册,包含统计样本建立、解释、模型与语法、文献等超过一万余页的出版品。除此之外,Stata软件可以透过网络实时更新每天的最新功能,更可以得知世界各地的使用者对于STATA公司提出的问题与解决之道。使用者也可以透过 Stata Journal 获得许许多多的相关讯息以及书籍介绍等。另外一个获取庞大资源的管道就是Statalist,它是一个独立的listserver,每月交替提供使用者超过1000个讯息以及50个程序。
二、Stata统计分析和数据管理绘图软件
Stata是一个用于分析和管理数据的功能强大又小巧玲珑的实用统计分析软件,由美国计算机资源中心(Computer Resource Center)研制。从1985到现在,已连续推出1.1,1.2,1.3,1.4,1.5,……及2.0,2.1,3.0,3.1,4.0,5.0,6.0,7.0.,8.0等多个版本,通过不断更新和扩充,内容日趋完善。它同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点,又在许多方面别具一格。Stata融汇了上述程序的优点,克服了各自的缺点,使其功能更加强大,操作更加灵活、简单,易学易用,越来越受到人们的重视和欢迎。
Stata的突出特点是只占用很少的磁盘空间,输出结果简洁,所选方法先进,内容较齐全,制作的图形十分精美,可直接被图形处理软件或字处理软件如WORD等直接调用。
1.Stata的统计功能
Stata的统计功能很强,除了传统的统计分析方法外,还收集了近20年发展起来的新方法,如Cox比例风险回归,指数与Weibull回归,多类结果与有序结果的logistic回归,Poisson回归,负二项回归及广义负二项回归,随机效应模型等。具体说,Stata具有如下统计分析能力:
数值变量资料的一般分析:参数估计,t检验,单因素和多因素的方差分析,协方差分析,交互效应模型,平衡和非平衡设计,嵌套设计,随机效应,多个均数的两两比较,缺项数据的处理,方差齐性检验,正态性检验,变量变换等。
分类资料的一般分析:参数估计,列联表分析(列联系数,确切概率),流行病学表格分析等。
等级资料的一般分析:秩变换,秩和检验,秩相关等
相关与回归分析:简单相关,偏相关,典型相关,以及多达数十种的回归分析方法,如多元线性回归,逐步回归,加权回归,稳键回归,二阶段回归,百分位数(中位数)回归,残差分析、强影响点分析,曲线拟合,随机效应的线性回归模型等。
其他方法:质量控制,整群抽样的设计效率,诊断试验评价,kappa等。
2. Stata的作图功能
Stata的作图模块,主要提供如下八种基本图形的制作: 直方图(histogram),条形图(bar), 百分条图(oneway),百分圆图(pie),散点图(twoway),散点图矩阵(matrix),星形图(star),分位数图。这些图形的巧妙应用,可以满足绝大多数用户的统计作图要求。在有些非绘图命令中,也提供了专门绘制某种图形的功能,如在生存分析中,提供了绘制生存曲线图,回归分析中提供了残差图等。
3. Stata的矩阵运算功能
矩阵代数是多元统计分析的重要工具,Stata提供了多元统计分析中所需的矩阵基本运算,如矩阵的加、积、逆、Cholesky 分解、Kronecker内积等;还提供了一些高级运算,如特征根、特征向量、奇异值分解等;在执行完某些统计分析命令后,还提供了一些系统矩阵,如估计系数向量、估计系数的协方差矩阵等。
4. Stata的程序设计功能
Stata是一个统计分析软件,但它也具有很强的程序语言功能,这给用户提供了一个广阔的开发应用的天地,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。事实上,Stata的ado文件(高级统计部分)都是用Stata自己的语言编写的。Stata其统计分析能力远远超过了SPSS,在许多方面也超过了SAS!由于Stata在分析时是将数据全部读入内存,在计算全部完成后才和磁盘交换数据,因此计算速度极快(一般来说,SAS的运算速度要比SPSS至少快一个数量级,而Stata的某些模块和执行同样功能的SAS模块比,其速度又比SAS快将近一个数量级!)Stata也是采用命令行方式来操作,但使用上远比SAS简单。其生存数据分析、纵向数据(重复测量数据)分析等模块的功能甚至超过了SAS。用Stata绘制的统计图形相当精美,很有特色。
三、什么是 Stata ?
提供一个使用命令和图形方式来对数据进行统计分析的环境。Stata 是一个整合性的软件套件而不是一些个别模块的组合。你能运用数据管理,统计和图形化的命令来运算处理你的统计数据。
Stata 是一套全功能性的统计学软件,而且能在Windows, Macintosh,Linux 和 UNIX 等多种平台下使用。它提供了易学易用且快速的处理环境,一个已预先设计完成的分析及数据管理的链接库还有让使用者自行创造和添加功能的高度弹性;并且有适合的选单,给初学者最轻松简单的入门学习。 Stata 统一明了的命令语法更简化了学习和使用 Stata 的方式。
Stata 包含的主要功能除了有完整的统计、图形和数据管理的能力、完全的编辑你的程序或程序,还有线性模式、线性模式的产生、相似仿真方法、转换模式的测试、时间数列、矩阵指令、内建程序语言、因特网的应用等等,更详细的内容请参考 Stata Capabilities 。
Stata 的使用者能利用各式各样的资源来帮助他们学习和解决任何不同难度的 Stata 问题。对于有关 Stata 的技术性问题,使用者可直接以电话,传真,信件和E-mail的方式与 Stata Corp LP 联络,或者至 Stata 的因特网讨论区去发问或搜寻他们所需的解答。除此之外,Stata Corp LP 提供 Stata Journal,每两个月更新且发给所有的订阅者,里面汇集了在世界各地的使用者的宝贵心得和他们自行开发实用的 Stata 程序。这么完整的支持, Stata 都有提供。
由于 Stata 在分析时是将数据全部读入内存,在计算全部完成后才和磁盘交换数据,因此计算速度极快(一般来说,SAS 的运算速度要比SPSS 至少快一个数量级,而Stata 的某些模块和执行同样功能的 SAS 模块比,其速度又比 SAS 快将近一个数量级!)。Stata 也是采用命令行方式来操作,但使用上远比SAS简单。用 Stata 绘制的统计图形相当精美,很有特色。
四、Stata 基本功能
数据管理(Data management)
资料转换、分组处理、附加档案、ODBC、行-列转换、数据标记、字符串函数…等
Stata 可以将分组变量转换成指示变量(哑变量),将字符串变量映射成数字代码。
Stata 可以对数据文件进行横向和纵向链接,可以将行数据转为列数据,或反之。
Stata 可以恢复、修改执行过的命令。
Stata 可以利用数值函数或字符串函数产生新变量。
Stata 可以从键盘或磁盘读入数据。
基本统计(Basic statistics)
直交表、相关性、t-检定、变异数相等性检定、比例检定、信赖区间…等
线性模式(Linear models)稳健Huber/White/sandwich 变异估计, 三阶最小平方法、类非相关回归、齐次多项式回归、GLS
广义型线性模式(Generalized linear models)
十连结函数、使用者-定义连结、ML及IRLS估计、九变异数估计、七残差…等
二元、计数及有限应变量
(Binary,count,and limited dependent variables)
罗吉斯特、probit、卜松回归、tobit、truncated回归、条件罗吉斯特、多项式逻辑、巢状逻辑、负二项、zero-inflated 模型、Heckman 选择模式、边际影响
Panel数据/交叉-组合时间序列
(Panel data/cross-sectional time-series)
随机及固定影响之回归、GEE、随机及固定-影响之卜松及负二项分配、随机-影响、工具变量回归、AR(1)干扰回归
无母数方法(Nonparametric methods)
多变量方法(Multivariate methods)因素分析、多变量回归、anonical相关系数
模型检定及事后估计量支持分析
(Model testing and post-estimation support)Wald检定、LR 检定、 线性及非线性组合、非线性限制检定、边际影响、修正平均数Hausman检定
群集分析(Cluster analysis)加权平均, 质量中心及中位数联结、kmeans、kmedians、dendrograms、停止规则、使用者扩充
图形(Graphics)Stata的作图模块,主要提供如下八种基本图形的制作: 直方图(histogram),条形图(bar), 百分条图(oneway),百分圆图(pie),散点图(twoway),散点图矩阵(matrix),星形图(star),分位数图。这些图形的巧妙应用,可以满足绝大多数用户的统计作图要求。在有些非绘图命令中,也提供了专门绘制某种图形的功能,如在生存分析中,提供了绘制生存曲线图,回归分析中提供了残差图等。
调查方法(Survey methods)抽样权重、丛集抽样、分层、线性变异数估计量、拟-概似最大估计量、回归、工具变量…
生存分析(Survival analysis)Kaplan–Meier、Nelson–Aalen,、Cox 回归(弱性)、参数模式(弱性)、危险比例测试、时间共变项、左-右检查、韦柏分配、指数分配…
流行病学工具(Tools for epidemiologists)
比例标准化、病例控制、已配适病例控制、Mantel–Haenszel, 药理学、ROC 分析、ICD-9-CM
时间序列(Time series)ARIMA、ARCH/GARCH、VAR、Newey–West、 correlograms、periodograms、白色-噪音测试,最小整数根检定、时间序列运算、平滑化
最大概似法(Maximum likelihood)转换及常态检定(Transforms and normality tests)
Box–Cox、次方转换Shapiro–Wilk、Shapiro–Francia检定
其它统计方法(Other statistical methods)
样本数量及次方、非线性回归、逐步式回归 、统计及数学函数
包含样本范例(Sample session)
再抽样及模拟方法 (Resampling and simulation methods)
bootstrapping、jackknife、蒙地卡罗模拟、排列检定
五、其他数据挖掘软件还有那些
加载中,请稍候......