标签:
杂谈 |
1. 数据的类型
Stata常用的数据类型主要有三类:数值型、字符型和日期型,下面逐一进行介绍。
(1)数值型
数值型变量,主要由数字、正负号、小数点组成的数据,按其精度和存储大小不同,又可分为5类,具体内容见表2.2。
其中double是所有变量当中所需存储空间最大的一个,相应地其精度也最高。当用户使用的时候,应根据变量的特征来设置变量类型。在Stata中默认的数值型变量类型为float型。
(2)字符型
字符型变量,通常用来说明样本的一些特征信息,可以由字母、特殊符号和数字组成,但这里的数字已经退化成一种符号,不再具有数值特征。字符型数据一般会被保存为str#格式,str后面的数字代表最大字符长度,如str6表示可容纳最大长度为6个字符的字符型变量。字符型变量一般用英文状态下的引号""进行标注,且引号一般不被视为字符型变量的一部分。
(3)日期型
Stata软件中用来表示时间的变量有多种表达方式,例如1987年8月15日,可以写为19870815,也可以写为15081987等。在Stata中将1960年1月1日看做分界线,为第0天,之前的天数都加上一个负号,例如1959年12月30日为第-2天。
2. 数据的压缩
如果数据类型的设置不恰当,会带来一系列的麻烦,若类型设置过小会使得一些数据无法正常输入,这一类问题较容易发现,反之类型设置过大,则会造成存储空间的浪费。对于这一问题的避免可使用compress命令对数据进行压缩。compress命令能在很大程度上减少数据占用的存储空间,但不会改变数据的内容和精度,从而使用起来较为方便。数据压缩的命令语句为:
compress [varlist]
其中varlist是将要压缩的变量名称,若不指明要压缩的变量名称,Stata默认将对整个数据文件进行相应的压缩。
例如,我们生成一个样本,变量的名称为a,数值大小为1,使用Stata默认的类型为float。命令如下:
clear
set obs 1
gen a=1
describe
在这组命令中,clear用于清空内存;set obs 1是指样本容量设置为1(set
obs是进行样本容量设定的命令语句);
gen a=1表示生成一个变量的名称为a,它的值为1;describe命令将用来描述变量的基本情况,上述命令执行后将显示如图2.2所示的执行结果。
gen a=1表示生成一个变量的名称为a,它的值为1;describe命令将用来描述变量的基本情况,上述命令执行后将显示如图2.2所示的执行结果。
从上图中可以看到,这时候a的类型确实为float。为了压缩变量a所占用的存储空间,可使用如下命令:
compress
describe
执行结果如图2.3所示,可以发现这时a的类型已经变成了byte。
http://ww1/large/9b1b494ajw1eovg7mc0lfj20db082752.jpg参见:http://book.2cto.com/201412/48755.html

加载中…