1.1 Stata概述
Stata最初由美国计算机资源中心(Computer Resource Center)研制,现为Stata公司的产品。Stata公司于2021年4月推出Stata 17.0版本,本书就是基于该版本编写的,同时兼顾Stata 14.0~16.0等早期版本。
1.1.1 Stata功能简介
Stata之所以能成为最流行的计量经济学软件,根本原因在于Stata十分贴近计量经济学的实践应用。Stata具有以下功能。
1.统计功能
Stata的统计功能很强,除具有传统的统计分析方法以外,还收集了近20年发展起来的新方法,如Cox比例风险回归、指数与Weibull回归、多类结果与有序结果的Logistic回归、泊松回归、负二项回归及广义负二项回归、随机效应模型等。具体来说,Stata具有如下统计分析能力。
(1)数值型变量资料的一般分析:参数估计、t检验,单因素和多因素的方差分析、协方差分析、交互效应模型、平衡和非平衡设计、嵌套设计、随机效应、多个平均值的两两比较、缺项数据的处理、方差齐性检验、正态性检验、变量变换等。
(2)分类资料的一般分析:参数估计、列联表分析(列联系数、确切概率)、流行病学表格分析等。
(3)等级资料的一般分析:秩变换、秩和检验、秩相关等。
(4)相关与回归分析:简单相关、偏相关、典型相关,以及数十种回归分析方法,如多元线性回归、逐步回归、加权回归、稳健回归、二阶段回归、百分位数(中位数)回归、残差分析、强影响点分析、曲线拟合、随机效应的线性回归模型等。
(5)其他方法:质量控制、整群抽样的设计效率、诊断试验评价、Kappa分析等。
2.绘图功能
用Stata绘制的统计图形相当精美,并且很有特色。Stata的绘图模块主要提供如下8种基本图形的绘制功能:直方图、条形图、百分条图、饼图、散点图、矩阵散点图、星形图、分位数图。这些图形的巧妙应用,可以满足绝大多数用户的统计绘图要求。
在有些非绘图命令中,还提供了专门绘制某种图形的功能,如在生存分析中提供了绘制生存曲线图的功能,在回归分析中提供了绘制残差图的功能等。
3.矩阵运算功能
Stata具有矩阵运算功能。矩阵代数是多元统计分析的重要工具,Stata提供了多元统计分析中所需的基本矩阵运算功能,如矩阵的加、积、逆、Cholesky分解、Kronecker内积等。
Stata还提供了一些高级矩阵运算功能,如特征根求解、特征向量求解、奇异值分解等。在执行完某些统计分析命令后,Stata还提供了一些系统矩阵,如估计系数向量、估计系数的协方差矩阵等。
4.程序语言功能
虽然Stata是一个统计分析软件,但它也具有很强的程序语言功能,这给用户提供了一个广阔的开发应用天地,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。事实上,Stata的ado文件(高级统计部分)都是用Stata自己的程序语言编写的。Stata的统计分析能力远远超过了SPSS,在许多方面也超过了SAS。
由于Stata在分析时将数据全部读入内存,在计算全部完成后才和磁盘交换数据,因此其计算速度极快。通常,SAS的运算速度比SPSS至少快一个数量级,而Stata的某些模块和执行同样功能的SAS模块相比运算速度又快了将近一个数量级。
Stata也采用命令行方式来进行操作,但在使用上远比SAS简单,其生存分析、纵向数据(重复测量数据)分析等模块的功能甚至超过了SAS。
5.网络功能
Stata具有网络功能,支持网络应用,包括安装新指令、网络升级、网站档案分享、最新消息互动等。
1.1.2 Stata功能汇总
Stata可以实现的功能包括但不限于以下内容。
(1)数据管理:资料转换、分组处理、附加档案、ODBC(Open Data Base Connectivity,开放式数据库连接)、行列转换、数据标记、字符串函数等。
(2)基本统计:交叉表、相关性、t检验、变异数相等性检验、比例检验、信赖区间等。
(3)线性模式:稳健Huber/White/Sandwich变异估计、三阶最小平方法、类非相关回归、齐次多项式回归、GLS估计等。
(4)广义型线性模式:十联结函数、使用者-定义联结、最大似然估计及IRLS估计、九变异数估计、七残差等。
(5)二元、计数及有限应变量:Logistic回归、Probit模型、泊松回归、Tobit模型、Truncated回归、条件Logistic回归、多项式逻辑、巢状逻辑、负二项回归、Zero-Inflated模型、Heckman选择模式、边际影响等。
(6)Panel数据/交叉-组合时间序列:随机及固定-影响之回归、GEE、随机及固定-影响之泊松及负二项分配、随机-影响、工具变量回归、AR(1)干扰回归等。
(7)无参数方法。
(8)多变量方法:因素分析、多变量回归、Anonical相关系数等。
(9)模型检验及事后估计值支持分析:Wald检验、LR检验、线性及非线性组合、非线性限制检验、边际影响、修正平均值Hausman检验等。
(10)群集分析:加权平均、质量中心及中位数联结、Kmeans、Kmedians、Dendrograms、停止规则、使用者扩充等。
(11)绘制图形:直方图、条形图、饼图、散点图等。
(12)调查方法:抽样权重、丛集抽样、分层、线性变异数估计值、拟合最大似然估计值、回归、工具变量等。
(13)生存分析:Kaplan-Meier、Nelson-Aalen、Cox比例风险回归(弱性)、参数模式(弱性)、危险比例测试、时间共变项、左-右检查、Weibull分布、指数分配等。
(14)流行病学工具:比例标准化、病例控制、已配适病例控制、Mantel-Haenszel、药理学、ROC分析、ICD-9-CM等。
(15)时间序列:ARIMA、ARCH/GARCH、VAR、Newey-West、Correlograms、Periodograms、白色-噪音测试、最小整数根检验、时间序列运算、平滑化等。
(16)最大似然法。
(17)转换及常态检验:Box-Cox变换、次方转换、Shapiro-Wilk检验、Shapiro-Francia检验等。
(18)其他统计方法:样本数量及次方、非线性回归、逐步回归、统计及数学函数等。
(19)再抽样及模拟方法:Bootstrapping、Jackknife、蒙特卡罗模拟、排列检验等。