请问STATA里sort,tsset的指令是什么意思？_stata常用34条命令总结

admin 2024-09-19 09:30:40

本文目录一览

1、请问STATA里sort,tsset的指令是什么意思？
2、Stata 与模型的设定
3、stata中predict命令是干什么用的

请问STATA里sort,tsset的指令是什么意思？

sort指令是STATA数据库的维护的排序指令。tsset是定义数据是一个时间序列数据。如果想对数据文件定义year为时间变量，则输入命令：tsset year。

Stata 是一套提供其使用者数据分析、数据管理以及绘制专业图表的完整及整合性统计软件。它提供许许多多功能，包含线性混合模型、均衡重复反复及多项式普罗比模式。

扩展资料

统计功能

Stata的统计功能很强，除了传统的统计分析方法外，还收集了近20年发展起来的新方法，如Cox比例风险回归，指数与Weibull回归，多类结果与有序结果的logistic回归，Poisson回归，负二项回归及广义负二项回归，随机效应模型等。具体说， Stata具有如下统计分析能力：

数值变量资料的一般分析：参数估计，t检验，单因素和多因素的方差分析，协方差分析，交互效应模型，平衡和非平衡设计，嵌套设计，随机效应，多个均数的两两比较，缺项数据的处理，方差齐性检验，正态性检验，变量变换等。

分类资料的一般分析：参数估计，列联表分析 ( 列联系数，确切概率 ) ，流行病学表格分析等。

等级资料的一般分析：秩变换，秩和检验，秩相关等

相关与回归分析：简单相关，偏相关，典型相关，以及多达数十种的回归分析方法，如多元线性回归，逐步回归，加权回归，稳键回归，二阶段回归，百分位数 ( 中位数 ) 回归，残差分析、强影响点分析，曲线拟合，随机效应的线性回归模型等。

其他方法：质量控制，整群抽样的设计效率，诊断试验评价， kappa等。

参考资料来源：百度百科-stata

Stata 与模型的设定

介绍模型设定的相关内容，包括虚拟变量的使用、经济结构变动的检验、遗漏变量的检验、自变量数量的选择、极端数据的诊断与处理等方面的内容。

对于定性数据，通常并不能将其直接纳入模型中进行回归分析，因为这样的分析并不符合经济学理论，所以这时需要引入虚拟变量进行处理。一般情况下，如果分类变量总共有N类，为了避免多重共线性的出现，通常只引入N-1个虚拟变量。

regress financevalue gdp

[上传中...(image-20191117211705269.png-c763b3-1574492559433-0)]

在时间序列模型之中，需要十分注重模型系数的稳定性， Chow 检验提供了一个较为严谨的检验经济结构变动的方法。

检验的方法是分别进行三次回归。检验中国金融业增加值函数是否在2003 年以后发生了结构变化的操作过程如下:

遗漏变量属于解释变量选取错误的一种，因为某些数据确实难以获得，但是有时这种遗漏将会大大降低模型的精确度。假设正确模型如下所示:

如果在模型设定中遗漏了一个与被解释变量相关的变量X2 ,即所设定的模型为:

遗漏变量有3种情况：

Stata 提供了两种检验是否存在遗漏变量的方法: 一种是Link检验，另一种是Ramsey 检验。 Link 检验 的基本思想是: 如果模型的设定是正确的，那么y的拟合值的平方项将不应具有解释能力。 Ramsey 检验 的基本思想是:如果模型设定无误，那么拟合值和解释变量的高阶项都不应再有解释能力。

wage=工资(单位:元/小时) , educ=受教育年限(单位: 年) , exper=工作经验年限(单位: 年) , tenure=任职年限〈单位: 年) , lwage=工资的对数值。

分别利用Link 方法和Ramsey 方法检验模型 lwage =?1educ +?2exper +?3tenure 是否遗漏了重要的解释变量。

从图7. 5 中可以看出，经过添加解释变量后的模型拟合优度有了一定程度的提高，而且通过Link 检验可以看出此时hatsq项的p 值为0. 758 ，无法拒绝hatsq系数为零的假设，说明被解释变量lwage 的拟合值的平方项不再具有解释能力，所以可以得出结论: 新模型基本没有遗漏重要的解释变量。

在图7.6 中，第1 个图表仍然是回归结果，第2 个图表是Ramsey 检验的结果，不难发现Ramsey 检验的原假设是模型不存在遗漏变量，检验的p 值为0 . 5762 ，没有拒绝原假设，即认为原模型不存在遗漏变量。

为了进一步验证添加变量是否会改变Ramsey 检验的结果，同样采取Link 检验中的方法，生成受教育年限educ 和工作经验年限exper 的平方项，重新进行回归并进行检验，命令如下:

调整之后的检验结果,可以发现此时检验的p 值为0 . 6326 ，无法拒绝原假设，即认为模型不再存在遗漏变量。

人们总是希望建立具有经济意义而又简洁的模型，在现实的经济研究过程中，通常使用信息准则来确定解释变量的个数，较为常用的信息准则有两个。

中国工资的横截面数据，变量主要包括: wage=工资(单位:元/小时) , educ=受教育年限(单位:年) , exper=工作经验年限(单位:年) , tenure=任职年限(单位:年) , lwage=工资的对数值。

AIC 值为一37.77 ， BIC 值为一24 .00 。

加入教育年限educ和工作经验年限exper的平方项，建立新模型lwage = ?o +?1educ + ?2exper + ?3 tenure +?4 educ2 + ?5 exper2 ，然后重新对其进行回归井计算，命令如下:

AIC 值为-39.91,BIC 值为-19.25。第2 个模型的信息准则值更小，所以此模型优于第一个模型。

在全体观测值中，会有一些样本和总体样本距离较远，这些样本在回归中可能会对斜率或者截距的估计产生较大的影响，从而使得估计值和真值的差距较大，所以在实际应用中，首先应通过 绘制散点图 的方式观测是否有极端数值的存在，如果有，应该去掉这些极端数值再进行回归分析。 ? 如果解释变量过多或者是面板数据，绘图的方式并不直观，通常使用 leverage 影响力方法 来判断该数据是否是极端数据。若数据的leverage 影响力值高于平均值，则对回归系数影响较大，这时可能会产生极端数据的影响。

以price 为因变量， mpg（每加仑油所行驶的英里数）、weight(汽车重量)和foreign(是否是进口车) 为自变量建立回归模型，找出样本数据中存在的极端数据。

建立回归模型price =?0+?1mpg+ ?2weight + ?3foreign ，为分析汽车数据中是否存在极端值，在Stata 中输入如下命令:

在结果中可以看到lev 的均值为0. 0541 ，而最大的lev 值为0.3001，所以该观测值有可能为极端数据，可以采取进一步的方法进行处理，从而保证模型的精确性。

处理的方法一般有两种: 一种方法为直接去掉极端值:另一种方法则选择其他更为恰当的模型进行回归分析。