加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

STATA使用教程第四章——数据处理和数据运算

(2011-11-10 15:19:31)
标签:

杂谈

分类: Stata学习笔记

变量名

由英文字符,数字和下划线组成,且数字不能作为开始字符,用户最好不要使用字符e作为变量名,因为这与指数表达式中的e难以区分

 

在stata中所有的变量名都可以使用变量名当中排列在前面的字符串来指代。

 

变量标签

当数据中的变量有标签之后,stata在给出的结果(包括表格和图形中),将使用变量标签,而非变量名。

 

变量的数值标签

给变量的各个取值(通常也是由数字表示的)添加的说明,一共包含两步,首先,定义一个标签,然后把这个标签附加在变量上。

 

数字格式数据的存储类型

       所占空间      数位精确度

byte    1 byte       2

int     2 bytes      4

long    4 bytes      9

 

float               

double             16

 

缺失数据

在stata中,缺失值的默认表示方法是一个.

对于缺失数值,缺失值可以被认为是无穷大,这一点异常重要;

对于字符缺失值,缺失值被当做是数字取值,因此,如果按照字母顺序,缺失值则排在所有字符取值之前。

 

变量排序

order move 命令

 

生成新变量与变量赋值

generate命令式生成新的变量 replace则是修改现有的变量的取值

recode命令式直接更改原有的变量,而generate和replace的组合则是保留原有变量,而生成一个新的变量;

使用算术运算来重新赋值

 

 虚拟变量的生成

 使用generate、replace与recode命令

 针对类别变量使用tabulate命令

 针对二分变量使用算术运算

 使用快捷方法

 

 数值变量与字符变量的转换

 从字符变量到数值变量,使用encode

 从数值变量到字符变量,decode命令

 

系统变量

_b 是指在最近模型估算之后得到的系数

 _cons 是指最近模型估算之后得到的常数项

 _n是指当前观察个案所对应的个案数

 _N 是指整个数据中的观察个案数

 _pi圆周率的数值

 _se 是指模型估算之后得到的系数的标准误

 _result是指当前的特定的Stata运算结果中的统计量

 

使用函数生成新的变量

generate与egen 都可以用函数来生成新的变量,后者是前者的扩展形式。

 

数据的选择

数据的选择是在内存中完成的,没有涉及到更改硬盘中原始的数据。

保留或值删除观察个案

保留或是删除变量

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有