拼搏

拼搏

请问STATA里sort,tsset的指令是什么意思?_stata常用34条命令总结

admin

本文目录一览

请问STATA里sort,tsset的指令是什么意思?

请问STATA里sort,tsset的指令是什么意思?_stata常用34条命令总结-第1张-游戏-拼搏

sort指令是STATA数据库的维护的排序指令。tsset是定义数据是一个时间序列数据。如果想对数据文件定义year为时间变量,则输入命令:tsset year。

Stata 是一套提供其使用者数据分析、数据管理以及绘制专业图表的完整及整合性统计软件。它提供许许多多功能,包含线性混合模型、均衡重复反复及多项式普罗比模式。


扩展资料

统计功能

Stata的统计功能很强,除了传统的统计分析方法外,还收集了近20年发展起来的新方法,如Cox比例风险回归,指数与Weibull回归,多类结果与有序结果的logistic回归,Poisson回归,负二项回归及广义负二项回归,随机效应模型等。具体说, Stata具有如下统计分析能力:

数值变量资料的一般分析:参数估计,t检验,单因素和多因素的方差分析,协方差分析,交互效应模型,平衡和非平衡设计,嵌套设计,随机效应,多个均数的两两比较,缺项数据的处理,方差齐性检验,正态性检验,变量变换等。

分类资料的一般分析:参数估计,列联表分析 ( 列联系数,确切概率 ) ,流行病学表格分析等。

等级资料的一般分析:秩变换,秩和检验,秩相关等

相关与回归分析:简单相关,偏相关,典型相关,以及多达数十种的回归分析方法,如多元线性回归,逐步回归,加权回归,稳键回归,二阶段回归,百分位数 ( 中位数 ) 回归,残差分析、强影响点分析,曲线拟合,随机效应的线性回归模型等。

其他方法:质量控制,整群抽样的设计效率,诊断试验评价, kappa等。

参考资料来源:百度百科-stata

Stata 与模型的设定

介绍模型设定的相关内容,包括虚拟变量的使用、经济结构变动的检验、遗漏变量的检验、自变量数量的选择、极端数据的诊断与处理等方面的内容。

对于定性数据, 通常并不能将其直接纳入模型中进行回归分析,因为这样的分析并不符合经济学理论, 所以这时需要引入虚拟变量进行处理。一般情况下,如果分类变量总共有N类,为了避免多重共线性的出现, 通常只引入N-1个虚拟变量。

regress financevalue gdp

[上传中...(image-20191117211705269.png-c763b3-1574492559433-0)]

在时间序列模型之中,需要十分注重模型系数的稳定性, Chow 检验提供了一个较为严 谨的检验经济结构变动的方法。

检验的方法是分别进行三次回归。检验中国金融业增加值函数是否在2003 年以后发生了结构变化的操作过程如下:

遗漏变量属于解释变量选取错误的一种,因为某些数据确实难以获得,但是有时这种遗 漏将会大大降低模型的精确度。假设正确模型如下所示:

如果在模型设定中遗漏了一个与被解释变量相关的变量X2 ,即所设定的模型为:

遗漏变量有3种情况:

Stata 提供了两种检验是否存在遗漏变量的方法: 一种是Link检验,另一种是Ramsey 检验。 Link 检验 的基本思想是: 如果模型的设定是正确的,那么y的拟合值的平方项将不应具有解释能力。 Ramsey 检验 的基本思想是:如果模型设定无误,那么拟合值和解释变量的高阶项都不应再有解释能力。

wage=工资(单位:元/小时) , educ=受教育年限(单位: 年) , exper=工作经验年限(单位: 年) , tenure=任 职年限〈单位: 年) , lwage=工资的对数值。

分别利用Link 方法和Ramsey 方法检验模型 lwage =?1educ +?2exper +?3tenure 是否遗漏了重要的解释变量。

从图7. 5 中可以看出,经过添加解释变量后的模型拟合优度有了一定程度的提高,而且通过Link 检验可以看出此时hatsq项的p 值为0. 758 ,无法拒绝hatsq系数为零的假设,说明被解释变量lwage 的拟合值的平方项不再具有解释能力,所以可以得出结论: 新模型基本没有遗漏重要的解释变量。

在图7.6 中,第1 个图表仍然是回归结果,第2 个图表是Ramsey 检验的结果,不难发现Ramsey 检验的原假设是模型不存在遗漏变量,检验的p 值为0 . 5762 ,没有拒绝原假设,即认为原模型不存在遗漏变量。

为了进一步验证添加变量是否会改变Ramsey 检验的结果,同样采取Link 检验中的方法, 生成受教育年限educ 和工作经验年限exper 的平方项,重新进行回归并进行检验,命令如下:

调整之后的检验结果,可以发现此时检验的p 值为0 . 6326 ,无法拒绝原假设,即认为模型不再存在遗漏变量。

人们总是希望建立具有经济意义而又简洁的模型,在现实的经济研究过程中,通常使用信息准则来确定解释变量的个数,较为常用的信息准则有两个。

中国工资的横截面数据,变量主要包括: wage=工资(单位:元/小时) , educ=受教育年限(单位:年) , exper=工作经验年限(单位:年) , tenure=任职年限(单位:年) , lwage=工资的对数值。

AIC 值为一37.77 , BIC 值为一24 .00 。

加入教育年限educ和工作经验年限exper的平方项,建立新模型lwage = ?o +?1educ + ?2exper + ?3 tenure +?4 educ2 + ?5 exper2 , 然后重新对其进行回归井计算, 命令如下:

AIC 值为-39.91,BIC 值为-19.25。第2 个模型的信息准则值更小,所以此模型优于第一个模型。

在全体观测值中,会有一些样本和总体样本距离较远,这些样本在回归中可能会对斜率或者截距的估计产生较大的影响,从而使得估计值和真值的差距较大,所以在实际应用中,首先应通过 绘制散点图 的方式观测是否有极端数值的存在,如果有,应该去掉这些极端数值再进行回归分析。 ? 如果解释变量过多或者是面板数据,绘图的方式并不直观,通常使用 leverage 影响力方法 来判断该数据是否是极端数据。若数据的leverage 影响力值高于平均值, 则对回归系数影响较大,这时可能会产生极端数据的影响。

以price 为因变量, mpg(每加仑油所行驶的英里数) 、weight(汽车重量)和foreign(是否是进口车) 为自变量建立回归模型,找出样本数据中存在的极端数据。

建立回归模型price =?0+?1mpg+ ?2weight + ?3foreign ,为分析汽车数据中是否存在极端值,在Stata 中输入如下命令:

在结果中可以看到lev 的均值为0. 0541 ,而最大的lev 值为0.3001,所以该观测值有可能为极端数据,可以采取进一步的方法进行处理,从而保证模型的精确性。

处理的方法一般有两种: 一种方法为直接去掉极端值:另一种方法则选择其他更为恰当的模型进行回归分析。

stata中predict命令是干什么用的

predict命令作用是存贮回归命令中产生的变量。

相关介绍:

回归会产生需要值,例如回归的拟合值以及回归的残差。Stata 提供了 predict 命令帮助存储这些变量。例如把拟合值定义为wagehat,残差定义为wageresid。格式则为predict wagehat、predict wageresid, re。

有时样本中的一个特别的观察值会显著地改变回归结果。异常观察可能是由于样本的特性,也可能是因为录入错误,回归后的predict命令可以发现这些异常观察。

扩展资料

软件相关命令:

1、gen abs(x)(取x的绝对值)

2、gen ceil(x)(取大于或等于x的最小整数)

3、gen trunc(x)(取x的整数部分)

4、gen round(x)(对x进行四舍五入)

5、gen round(x,y)(以y为单位,对x进行四舍五入)

6、gen sqrt(x)(取x的平方根)

7、gen mod(x,y)(取x/y的余数)

8、gen reldif(x,y)(取x与y的相对差异,即|x-y|/(|y|+1))

9、predict ustd,stdr(获得残差的标准误)

10、predict std,stdp(获得y估计值的标准误)

11、predict stdf,stdf(获得y预测值的标准误)

12、predict e,e(1,12)(获得y在1到12之间的估计值)

13、predict p,pr(1,12)(获得y在1到12之间的概率)

14、predict rstu,rstudent(获得student的t值)

15、predict lerg,leverage(获得杠杆值)

16、predict ckd,cooksd(获得cooksd)

标签 请问stata里sort

tsset的指令是什么意思_stata常用34条命令总结