Stata 是一套提供其使用者数据分析、数据管理以及绘制专业图表的完整及整合性统计软件。它功能非常强大,包含异质性DID、中介效应、多向聚类标准误、野聚类自助法、工具变量分位数回归、贝叶斯模型平均、描述性统计制表等功能。用 Stata 绘制的统计图形相当精美。Stata 具有操作灵活、简单、易学易用、运行速度极快等优点。StataNow 就是Stata。它是Stata的一个持续发布版本,在新功能准备就绪后,将立即提供新功能。StataNow 是我们为用户提供最好的 Stata,最新的 Stata 而不断努力的结果。
>> 【StataNow 新功能】多事件区间删失 Cox 模型及控制函数线性模型和概率模型
>> 2024 Stata夏季训练营“面板数据的因果推断及Stata应用研讨会”圆满结束!
>> 2024 Stata夏季训练营“计量经济实证方法与论文写作研讨会”圆满结束!
>> 友万快讯:友万科技深入喀什大学开展Stata和IBM SPSS软件内训及服务解决方案
>> 热烈祝贺“第七届Stata中国用户大会”在哈尔滨商业大学成功举办并取得圆满成功
>> 【技术帖】使 Stata 18 保持最新,全面兼容 Win11,离线包下载(2024年12月18 日)
>> 【技术帖】StataNow 18.5 一个持续发布版本,最新离线包下载(2024年12月18 日)
>> 【Stata视频】Stata 18新功能:巧用21个新亮点视频合集(下)
>> 【Stata视频】Stata 18新功能:巧用21个新亮点视频合集(中)
【Stata18 新功能】用新的 dtable 命令创建描述性统计表
【Stata18 新功能】一个可以运行Tg-1的Stata命令
首先,StataNow就是Stata。它是Stata的一个持续发布版本,在新功能准备就绪后,立即提供新功能。StataNow 是我们为用户提供最好的 Stata - 最新的 Stata 而不断努力的结果。 在 StataNow 发布之前,大多数新功能只有在 Stata17、Stata 18 等更高版本发布时才能使用。StataNow 可以让用户更快地使用新功能。例如,StataNow 包含的功能也将成为未来主要版本 Stata 19 的一部分。
StataNow 中的功能都经过全面测试、全面认证、完善的文档记录、版本控制(如有需要),并按照我们一贯的高质量要求进行了完善。这些功能在开发周期中处于优先地位,一旦准备就绪,就会立即提供给用户,以便用户可以立即利用这些功能。一如既往,Stata 的所有版本都会定期更新,并进行修正和必要的改进。您可以查看自 Stata 18 发布以来,Stata 和 StataNow 的所有新增功能列表。 StataNow 中的新功能将在当前版本中持续发布,直至下一个主要版本。
它们并不按照任何预设的时间表发布。因为 StataNow 就是 Stata,所以当我们在网站和文档中提到 "Stata"时,我们也指 "StataNow"。对于只有 StataNow 才有的功能,我们将具体介绍 StataNow。因为 StataNow 就是 Stata,它在所有版本(StataNow/MP、StataNow/SE 和 StataNow/BE)和所有支持的平台(Windows、Mac 和 Linux)上都可用。在整个网站和文档中,为了简单起见,我们通常只提及 Stata/MP、Stata/SE 和 Stata/BE。如果您拥有如下所述的 StataNow 许可证,您可以将其理解为 StataNow/MP、StataNow/SE 和 StataNow/BE。
使用命令 areg 和 xtreg 的选项 absorb() 在线性和固定效应线性模型中不仅吸收一个,而且吸收多个高维分类变量。与传统方法相比,享受显着的速度提升,其中包括模型中这些变量类别的指标。在不同的估算方法之间进行选择。
元套件现在支持相关系数的荟萃分析 (MA)。支持所有标准的荟萃分析特征,例如森林图和亚组分析。
您的工具变量 (IV) 回归中是否有较弱的工具?使用新的 estat weakrobust 命令对内生回归器执行可靠的推理。
使用新的 ivsvar 命令,您可以使用工具而不是短期约束来估计动态因果效应。向量自回归 (VAR) 模型描述了时间序列变量集合的交互方式。在VAR模型中,所有变量都是内生的。当我们想估计动态因果效应时,我们可以对VAR模型施加理论限制;这些限制导致了结构性 VAR (SVAR) 模型。在这里,我们重点介绍短期 SVAR 模型。传统上,这些模型对冲击如何影响内生变量施加了限制。或者,如果我们有工具,我们可以对冲击和工具之间的关系进行限制;这使我们能够拟合工具变量(代理)SVAR 模型。在这些模型中,可以自由估计仪器化冲击(目标冲击)对内生变量的影响。ivsvar 使用工具变量估计 SVAR 模型的参数。这些估计参数可用于追踪称为结构脉冲响应函数 (IRF) 的动态因果效应。这些 IRF 描述了对 SVAR 模型的冲击如何随时间推移影响模型变量。
新的 bayes: qreg 命令适合贝叶斯分位数回归。贝叶斯框架为分位数回归系数提供了完整的后验分布,提供了全面的推理,包括基于模型的“标准误差”。支持所有标准贝叶斯特征,例如假设检验和预测。
bayesmh 命令现在包括一个不对称拉普拉斯分布 (ALD) 作为新的似然函数。您可以使用 ALD 对具有明显偏度和峰度的非正态结果进行建模。你也可以用它来拟合贝叶斯分位数回归模型(Yu and Moyeed 2001)。有关贝叶斯单变量分位数回归,请参阅新的 bayes: qreg 命令。使用贝叶斯,您可以拟合贝叶斯同步、多水平和非线性分位数回归模型。
用于通过增强的逆概率加权估计处理效果的 teffects aipw 命令现在可以提供对处理对象的平均处理效果的估计值,并可以调整抽样权重的结果。
用于拟合向量自回归 (VAR) 模型的 var 命令现在允许使用 vce(robust) 选项来估计鲁棒标准误差。
Do-file 编辑器具有以下新功能:
代码折叠增强功能。代码折叠允许您有选择地隐藏文档的某些部分,以便您可以专注于感兴趣的部分。Stata 的 Do-file 编辑器允许您有选择地折叠 do-file 中的代码块,例如程序、Mata 代码、Python 代码、函数和 if 语句,方法是将它们折叠为一行。现在,您可以使用“全部折叠”菜单项快速折叠 do-file 中的所有可折叠代码块。然后,您可以有选择地一次展开一个折叠点,以显示 do-file 中更重要的部分,也可以使用 Do-file 编辑器的“全部展开”菜单项来展开每个折叠点。您还可以选择代码行,并使用“折叠”选择菜单项将它们转换为可折叠的代码块。这可以整理您的代码并提高代码的可读性。最后,Do-file Editor 有一个新设置,当 do-file 打开时,它会自动折叠 do-file 的每个可折叠代码块。
自动完成变量名称。Stata 的 Do-file 编辑器现在包括从内存中的数据自动完成变量名称的功能。如果在键入时短暂停顿,Do-file 编辑器将建议命令列表、内存中数据的变量名称以及 do-file 中已有的单词。一旦出现建议,更多的输入将缩小可能性。您可以使用向上和向下箭头键导航建议,也可以继续键入以将其缩小到单个单词。一旦你有了你喜欢的单词,你可以按Return将这个词放在你的do-file中。
colorvar() 选项现在可用于其他双向图:line、connected、tsline、rline、rconnected 和 tsrline。这意味着您可以根据指定变量的值在这些图中改变颜色线、标记等。
用于将 Python 集成到 Stata 和将 Stata 集成到 Python 中的 PyStata 功能具有以下改进:
1) 在基于 IPython 内核的环境中(如 Jupyter Notebook 和控制台以及 Jupyter Lab 和控制台)以及支持 IPython 内核的其他环境(如 Spyder IDE 和 PyCharm IDE)中运行 Stata 代码时,现在可以在按 Tab 键键入时自动完成当前工作数据集中的 Stata 变量名称、宏名称和结果 r()、e() 和 s()。
2) 新的 %help line magic 现已推出;它允许您在 Web 浏览器中查看指定 Stata 命令或主题的帮助信息。
3) 现在,您可以控制在 Python 环境中执行 Stata 命令时是否回显这些命令及其输出;您可以控制是在执行开始时同时显示 Stata 的输出,还是在 Stata 执行完成后显示输出。
4) 在 sfi 模块中,可以使用新的类 BreakError;它允许使用 Stata 中的 Break 键中断 Python 执行。
需要分析糖尿病和高血压等多种类型事件的发生时间?不知道确切的事件时间?使用新的 stmgintcox 命令来分析这类区间删失的多事件数据,并考虑不同事件的事件时间之间可能存在的相关性,评估比例危害假设,对所有事件的共同协变量效应进行强力检验,绘制协变量特定生存者、危险和其他函数图。
使用新的 cfregress 和 cfprobit 命令,您可以拟合控制函数线性模型和概率模型,为内生变量模型提供了传统工具变量(IV)方法的灵活替代方案。您可以包含连续、二元、分数和计数内生变量。您还可以轻松地进行内生性检验。
即使某些解释变量是内生的,控制函数模型也能让研究人员估算出因果关系。在这里,第一阶段模型适用于所有内生变量,然后利用残差形成控制函数,将其纳入主要结果模型以考虑内生性。
当传统的 IV 方法无法满足所需的模型特征(如灵活处理相互作用的内生变量或对内生二元变量、分数变量和计数变量建模)时,研究人员通常会使用控制函数方法。cfregress 和 cfprobit 命令可以拟合控制函数模型,灵活处理内生变量的交互作用和建模,并提供包含估计控制函数的标准误差。拟合模型后,您可以轻松进行内生性测试。
一般来说,你会选择一个模型并基于这个模型进行分析。这些结果是以所选模型为条件的。在存在多个合理的模型时,这种方法可能不可靠。
模型平均法允许你在多个模型的基础上进行分析,从而在结果中考虑到模型的不确定性。
BMA根据贝叶斯原则对模型的不确定性进行核算,可以普遍应用于任何数据分析。
在回归设定中,模型的不确定性描述了哪些预测因子应该包括在回归模型中的不确定性。
新的命令 bmaregress 可以执行线性回归的 BMA,并可用于推理、
预测,如果需要的话,甚至可以用于模型选择。比如说,
. bmaregress y x1 x2
考虑包括或不包括预测因子x1和x2的结果y的所有四种可能的模型,并根据每个模型在观察数据基础上的可能性结合这些模型。你可以从各种先验分布中选择,以探索关于模型和预测者的重要性的假设对结果的影响。
Postestimation 命令允许你估计一个模型的概率,识别重要的预测因子,探索模型的复杂性,获得预测手段,评估预测性能,并对回归系数进行推断。
使用线性回归,bmaregress 对线性回归模型进行 BMA,使研究人员能够考虑到应该使用哪些预测因子的不确定性。
因果推理的目的是识别和量化治疗对结果的因果效应。在因果关系分析中,我们旨在进一步探索这种效应是如何产生的。也许运动可以提高一种激素的水平,而这种激素反过来又可以提高幸福感。也许进口配额增加了当地公司的市场力量,反过来又增加了商品的价格。 我们经常用因果图来显示这样的关系,比如说
利用新的 mediate 命令,我们可以估计治疗对结果的总效应,并将其分解为直接效应和间接效应(通过中介如荷尔蒙水平)。事实上,可以计算多种类型的分解,这取决于感兴趣的假设。此外,estat proportion 报告了通过中介物发生的总效应的比例。 mediate 是非常灵活的--结果可以是连续的、二进制的或计数的;mediator 可以是连续的、二进制的或计数的;而治疗结果可以是二进制的、多值的或连续的。 mediate 是命令非常灵活的,它支持结果和调解人的24种模型组合,所以它可以应用于实际研究中出现的许多情况。
DID 模型是用来估计重复测量数据对被治疗者的平均治疗效果(ATET)的。治疗效果可以是药物治疗对血压的影响或培训计划对就业的影响。与现有的teffects命令提供的标准横断面分析不同,DID 分析在估计 ATET 时控制了组和时间效应,其中组是重复测量的。
异质性 DID 模型还考虑了因群体在不同时间点接受治疗而产生的治疗效果的变化,以及群体内效果随时间变化的情况。
假设几个学校引进了一项运动和营养计划,以改善学生的健康状况。该计划对学生健康结果的影响不随时间变化,而且无论何时采用该计划都是一样的,这是否合理?也许不是。我们可以使用异质性 DID 模型来解释潜在的效果差异。
新的命令 hdidregress 和 xthdidregress 适用于异质 DID 模型。hdidregress 适用于重复截面数据,xthdidregress 适用于纵向/面板数据。
异质性 DID 是最近世界各地许多 Stata 会议上的一个热门话题。现有的用户可能会对这个新增功能感到非常兴奋。
Stata 18 中的 graph 有了新的外观!
新的默认图形方案(或 Stata 图形的新外观)包括以下备受期待的功能:
1.白色背景
2.更新的调色板,色彩明亮
3.水平 y 轴标签
4.宽高比
5.某些图形的动态图例放置
6.还有更多
作为一个例子,新方案中的条形图现在就像下面一样:
从而代替了以下旧条形图:
事实上,我们引入了四种新的图方案:stcolor、stcolor_alt、stgcolor和stgcolor_alt。新的默认为 stcolor,其他方案是 stcolor 的变体,提供不同的宽度和图例位置。
新的 dtable 命令创建一个描述性统计表。
dtable 报告连续和分类因素变量的汇总统计。你可以选择你想为每个变量报告的统计数字;从平均数、标准差、中位数、四分位数范围、百分比、比例和许多其他数据中选择。你还可以轻松地比较另一个变量的不同类别的统计数据。
由 dtable 创建的表格可以在许多方面进行定制--要报告的统计数据、数字和字符串格式、注释、标题、标签等等。表格可以直接导出到 Microsoft Word 、MicrosoftExcel。HTML。Markdown,PDF。LaTex SMCL. 或纯文本。
dtable 命令使创建那些通常被称为 "表1 "的表格变得很容易-几乎每篇研究论文中都有第一个表格。
从 Stata 16 开始,Stata 就支持内存中的多个数据集。每个数据集都驻留在一个 frame 中。当数据集是相关的,你可以通过使用 frlink 命令来链接它们的 frame,并确定当 frame 中的观测值与相关 frame 中的观测值相匹配的变量。
在 Stata 18 中,你可以使用新的 fralias add 命令来创建跨链接 frame 的别名变量,并轻松地使用存储在不同 frame 中的变量进行分析。
别名变量的行为就像你把它们从一个 frame 中复制到另一个 frame 中一样,但是由于它们被存储在原始 frame 中,所以它们占用的内存非常小。
要查看别名变量的使用很容易,请假设 y 是当前 frame 中的一个变量,并且 x 可以从名为 frame2 的链接中获得。要在当前 frame 中创建x的别名,请输入:
. fralias add x, from(frame2)
然后,您可以通过输入:
. regress y x
就像 x 被存储在当前 frame 中一样。
GSDs 是一种适应性设计,允许研究人员在发现某种治疗方法有效或无效的有力证据时提前停止试验。
假设我们想设计一项研究来检验某种类型的化疗对治疗肿瘤是否有效,并且我们希望在几个月的时间里收集数据。GSDs 允许我们在收集数据时进行中期分析,而不是在收集完所有数据后进行一次分析。每个中期分析都提供了停止试验或继续收集数据的机会。如果有强有力的证据证明疗效,试验可以提前停止。如果有强有力的证据表明试验是无效的,试验也可以提前停止;这样可以避免让更多的参与者接受不适当的治疗。
Stata 18 为 GSDs 提供了一套命令。新的 gsbounds 命令可以根据分析的数量(也叫looks)、期望的总体 Type I 误差和期望的功率来计算疗效和效用界限。新的 Gsdesign 命令可以计算疗效和无效边界,并提供中期和最终分析的样本量,以测试平均值、比例和生存函数。
Graphs 使所有中期和最终分析的界限更容易直观化。
这个工具对用户非常友好。syntax 命令遵循我们对 power 命令的直接 syntax。通过点选界面可以很容易地获得结果。样本大小的计算可以扩展到均值、比例和生存函数的测试之外,因为用户可以指定一个用户定义的方法,这些通过 gsdesign 随时可用。
任何设计临床试验的人都会对此功能感兴趣,这可以扩展到临床心理学家和其他医学研究人员。
当研究人员想要分析来自多个研究的结果时,他们会使用元分析来合并结果并估计总体效应大小。现有的 meta 套件被用来进行标准和多变量的元分析。
有时报告的效应大小被嵌套在更高层次的分组中,如地理位置(州或国家)或行政单位(学区)。同一组内(例如,区)的效应大小很可能是相似的,因此具有依赖性。在这种情况下,你可以使用多层元分析。多层元分析的目标是不仅要综合总体效应大小,而且要考虑到这种依赖性,并评估不同层次的效应大小之间的变化。新的估计命令 meta meregress 和 meta multilevel 是用来进行多层元分析的。
假设我们有研究报告了两种教学方法对数学考试成绩y和y的抽样标准误差的影响(平均差异)。影响大小嵌套在学校内,学校嵌套在地区内。我们可以用
. meta meregress y || district: || school:, essevariable(se)
或
. meta multilevel y, relevels(district school) essevariable(se)
如果我们有协变量并想要包括随机斜率,我们可以使用meta meregress:
. meta meregress y x1 x2 || district: x1 x2 || school:, essevariable(se)
拟合模型后,后估计命令可用于计算多层次异质性统计,显示估计的随机效应协方差矩阵等。
Syntax 命令是目前所有软件包中最简单的。meta meregress 在可以应用于随机效应的约束方面也是最灵活的。
meta esize 命令对两个样本的二元或连续数据进行元分析,现在,它也对一个样本的二元数据进行元分析,也被称为比例的元分析或流行率的元分析。
这些类型的数据通常出现在元分析研究中,当汇集来自各估计一个比例的研究结果时。例如,你可能有研究报告某种疾病的流行率或高中辍学学生的比例。在这种情况下,效应大小,如Freeman-Tukey转换的比例或 logit 转换的比例,通常在元分析中使用。
在 meta esize 之后,使用 meta 套件中的其他命令进行进一步分析。例如,用 meta forestplot 创建森林图,通过将 subgroup()选项添加到元森林图来执行亚组分析,使用 meta summarize 汇总元分析数据,或者使用meta funnelplot构建漏斗图。
患病率的元分析是最常见的用户要求添加到我们的元分析套件中。许多用户期待着对这种性质的研究进行分析。
正确的标准误对于在研究中得出适当的推论至关重要。
Stata 18 为 regress、areg 和 xtreg、fe 的线性模型提供了获得标准误差和置信区间的新方法。新方法的目的是在大样本近似法效果不佳时提供更好的推理。也许你的聚类数据只有几个聚类,或者每个聚类的观测值数量不均匀。您现在可以添加 vce(hc2-clustervar)选项来获得 hc2 聚类稳健标准误。也许你有一个以上的变量来识别你的数据中的聚类,你现在可以添加 vce(cluster clustvar1 clustvar2 ...)选项来获得多向聚类标准误。
最近,社交媒体上有许多关于在各种情况下标准误的最佳选择的热烈讨论。
当研究人员有几个集群的数据、集群之间的观测数量不均衡或两者兼有时,野聚类自助法为稳健推理提供了另一个新的选择。
新的 wildbootstrap 命令计算了用于检验线性回归模型参数的简单和复合线性假设的野聚类自助法 p 值和置信区间。你可以输入
. wildbootstrap regress y x1 x2 …
或
. wildbootstrap areg y x1 x2 …, absorb(x3)
或
. xtset id
. wildbootstrap xtreg y x1 x2 …
来分别拟合线性回归模型、带有大量虚拟变量集的线性回归模型或面板数据的固定效应线性回归模型,并获得野聚类自助法统计数据。
这与上述新的标准误差很好地结合在一起,为用户提供了许多新的工具,用于线性模型中的稳健推断。
流行病学家经常需要确定两种暴露是如何相互作用的,使受试者经历一个感兴趣的结果的风险更高。例如,你可能想研究香烟烟雾和石棉的暴露如何相互作用,增加肺癌的风险。使用新的 reri 命令,你可以在相对风险的加性模型中测量双向的相互作用,同时考虑到其他的 风险因素。
研究人员可以从各种支持的模型中选择,如 Logistic、二项广义线性、泊松、负二项、Cox、参数生存、区间删失的参数生存和区间删失的Cox模型。他们可以通过使用三个相关的统计数据:RERI、可归属比例和协同指数来评估烟雾和石棉的相互作用的加性模型。
用户群体:流行病学、医学和健康研究人员。
在事件-时间数据中,当一个感兴趣的事件(如癌症复发)的时间没有被直接观察到,但已知位于一个区间内时,就会发生区间删失。现有的 stintcox 命令适合半参数区间删失的Cox比例风险模型。在 Stata 18 中,stintcox 允许随时间变化的协变量。
stintcox 现在支持每个受试者间隔多个记录的审查数据,其中包括每个受试对象每个检查时间的记录。这种格式可以很容易地适应时变协变量;数据记录了每个检查时间的协变量的值。每个受试者的多个记录数据也提供了指定当前状态数据的方便方法。
stintcox 还提供了新的选项 tvc(varlist_t)和 texp(exp),这两个选项提供了一种方便的方式来包括时间迭代协变量,这些协变量是由 tvc()中指定的协变量与 texp()中规定的时间的不确定性函数之间的相互作用形成的。
拟合一个模型后,标准和特殊利益的后评估功能可用,并适当地考虑时间变化的协变量。你可以使用新的 estat gofplot 命令来产生一个拟合的良好性图。你可以预测相对危险度。你可以使用 stcurve 来绘制生存者和相关函数。当你有多个记录数据时,你可以使用新的 stcurve 选项 attmeans 来评估协变量的特定时间均值的函数,或者使用新的选项 atframe(framename) 来评估 framename 中指定的变量值的函数。
真正的半参数模型是对区间删失的事件-时间数据的建模,直到近年来方法上的进步,这些进步在 stintcox 命令中实现。方法上的进步还体现在对时变协变量的扩展上,现在这个命令中就有这些扩展。
用户群体:任何对生存期或持续时间分析感兴趣的人,如生物统计学、经济学(作为持续时间分析的一部分)、流行病学、医学、政治学、机构研究或健康方面的研究人员。
当我们有许多潜在的协变量时,我们使用 lasso 进行预测和模型选择。(当我们说很多的时候,我们指的是几百个,几千个,甚至更多。)我们以前介绍过 lasso 命令,对线性、logit、probit 和 Poisson 模型进行 lasso。在 Stata 18 中新增了用于 Cox 比例危险模型的 lasso。lasso cox 可以用来用套索选择协变量,并对生存时间数据拟合 Cox 模型。 elasticnet cox 同样可以用来用弹性网选择协变量并拟合 Cox 模型。 在 lasso cox 和 elasticnet cox 之后,你可以使用 predict 来预测危险比;使用 stcurve 来绘制生存函数、危险函数或累积危险函数;或者使用 lasso 和 elasticnet 之后的任何其他后估计工具来检查 lasso 的结果。
用户群体:任何对生存期或持续时间分析感兴趣的人,如生物统计学、经济学(作为持续时间分析的一部分)、流行病学、医学、政治学、机构研究或健康方面的研究人员。
Stata 18 提供了新的estat gofplot命令来生成生存模型的拟合优度 (GOF) 图。您可以在四个生存模型之后使用它:右删失 Cox ( stcox )、区间删失 Cox ( stintcox )、右删失参数 ( streg ) 和区间删失参数 ( stintreg )。检查分层模型后的模型适合度或分别针对每个分组。
GOF 图可以直观地检查模型与数据的拟合程度。在生存分析中,这些检查基于所谓的 Cox–Snell 残差和假设,如果模型是正确的,这些残差应该具有标准的指数分布。从视觉上看,这个假设是通过根据估计的累积风险绘制残差来评估的——绘制的值越接近 45° 线,拟合越好(Cox 和 Snell 1968)。
o 参数和半参数生存模型
o 右删失和区间删失数据
o 累积风险函数的三个估计量
o 按组和分层模型
新的 Ipirf 命令提供了 IRFS 的局部投影。在时间序列分析中,局部投影法被用来估计冲击对结果变量的影响。例如,我们可以评估利率的意外变化对一个国家的产出和通货膨胀率的影响。
你可以输入:
. lpirf y1 y2
以获得 y1 和 y2 的 IRFS 的局部投影估计。您可以添加 exog()选项来估计动态乘数,这是内生变量对外生变量冲击的反应。
新的 lpirf 命令与现有的 irf 命令无缝配合,允许您创建 IRFS、正交 IRFS 和动态乘法器的图形和表格。
与上面提到的线性模型一样,稳健标准误在IRF估计中往往很重要。稳健标准误和 Newey-West 标准误是可用的。
IRFS 的局部投影提供了基于向量自回归(VAR)模型的 IRFS 的替代方案。局部投影不受模型约束;因此,它们提供了更灵活的 IRF 系数。局部投影也允许更容易的假设检验。
任何研究时间序列数据的人,包括经济学、政治学、金融学和公共政策的研究人员对此功能都会感兴趣。
想为您的数据找到最好的ARIMA或ARFIMA模型吗?使用AIC、BIC和HQIC比较潜在模型。使用新的arimasoc和arfimasoc命令来选择自回归和移动平均项的最佳数量。
使用自回归移动平均(ARMA)模型的研究人员必须决定在其模型中包括自回归和移动平均参数的适当滞后数。平衡模型拟合与模型简约性的信息准则通常指导最大滞后数的选择。
arimasoc和arfimasoc通过拟合自回归积分移动平均值(ARIMA)或自回归分数积分移动平均数(ARFIMA)模型的集合并计算每个模型的信息标准来帮助模型选择。arimasoc和arfimasoc计算Akaike信息准则(AIC)、贝叶斯信息准则(BIC)和Hannan–Quinn信息准则(HQIC)。所选择的模型是信息标准值最低的模型。
o ARIMA 和 ARFIMA 模型的模型选择
o AIC、BIC 和 HQIC 信息标准
通常情况下,研究人员对估计一篮子商品的需求感兴趣。新的 demandys 命令提供了广泛的工具来计算需求,并通过计算相应的弹性来衡量商品需求对价格和支出变化的敏感程度。
我们可以用 demandys 来拟合八个不同的需求系统模型:
o Cobb–Douglas
o Linear expenditure system
o Basic translog
o Generalized translog
o Almost ideal demand
o Generalized almost ideal
o Quadratic almost ideal
o Generalized quadratic almost ideal
使用 estat 弹性命令,我们可以估计各种弹性支出弹性、未补偿的自有价格和交叉价格弹性以及补偿的自有物价和交叉价格的弹性,以探索需求对价格和支出变化的敏感程度。
由于有八种需求系统可供选择,demandys 命令为研究人员提供了很大的灵活性,可以选择符合其经验假设的需求系统技术。
当我们想研究协变量对结果的不同量级的影响,而不仅仅是对精益的影响时,我们使用分位数回归。例如,我们可能对建立学生的年级分布模型感兴趣,以及它如何受到协变量变化的影响。现有的 qreg 命令适合于分位数回归模型,但是如果我们怀疑其中一个协变量是内生的呢?这种内生性可能是由于研究参与者的自我选择、模型中遗漏相关变量或测量误差等原因造成的。新的 ivqregress 命令允许我们对结果的分位数进行建模,同时用 IV 控制由内生性引起的问题。拟合 IV 分位数回归模型后,你可以用 estat coefplot 命令绘制各分位数指标的系数。你可以用 estat endogeffects 命令来检验内生性。还可以用 estat dualci 命令估计对弱工具具有稳健的双重置信区间。
分位数回归在所有学科中都很流行,经济学、公共政策、政治学、公共卫生和管理学的研究人员都会特别感兴趣。
分数结果很常见,你可能会对 401(K)养老金工厂的参与率、标准化考试的通过率、支出份额等进行建模。分数响应模型是一种灵活直观的方法,可以对介于 0 和 1 之间的结果进行建模。它们不存在将产生 0 和 1 之外的预测的线性模型的问题,也不存在在 0 和 1 处未定义的 log-odds 模型的问题。分数响应模型可以使用现有的 fracreg 命令进行拟合。
如果你担心你的一个或多个模型协变量是内生的,该怎么办?使用新的 ivfprobit 命令,您可以拟合分数因变量的模型,并考虑一个或多个协变量的内生性。
数据编辑器在 Stata 18 中有许多增强功能:
可固定的行和列。固定的行或列不会与其他数据一起滚动,因此当您滚动数据时,它们将保持在视图中。这对于与其他可能仅在滚动时可见的数据进行视觉比较非常有用。ID 变量是一个很自然的固定对象。
字符串数据的可调整大小的单元格编辑器。编辑字符串变量时,可以调整单元格编辑器的大小,以便在编辑时可以看到更多的字符串,而不会从单元格编辑器的视图中滚动出来。
截断文本的工具提示。任何单元格值如果太宽而无法适应其单元格列宽,则会截断以适应。将鼠标指针悬停在具有截断文本的单元格上,将显示一个工具提示,其中包含该单元格的值而不截断。
比例宽度字体支持。数据编辑器现在支持等宽字体。这提高了数据的可读性,并允许在不需要滚动的情况下一次显示更多的变量。如果愿意,仍然可以使用单格字体。
在列标题中显示变量标签。变量标签现在可以显示在列标题中变量名称的正下方。这对于查看具有变量标签的简短和非描述性变量名的数据集非常有用。用于隐藏或显示值标签的新键盘快捷方式。在查看数值及其对应标签之间快速切换。
Do文件编辑器在 Stata 18 中也有增强功能:
自动备份。在 Do 文件编辑器中打开的文档会定期保存到磁盘上的备份文件中。其中包括尚未保存到磁盘的新文档。如果您的计算机在您有机会保存对文档的更改之前断电或崩溃,您未保存的更改仍然可以恢复。若要恢复未保存的更改,请在 Do 文件编辑器中再次打开文档。如果在与文档相同的位置找到备份文件,系统将提示您恢复备份文件或打开上次保存到磁盘的文档。恢复备份文件只需将其加载到 Do 文件编辑器中;除非您选择这样做,否则它不会重写保存到磁盘的文档。
语法高亮显示用户定义的关键字。Statas Do 文件编辑器现在包括语法高亮显示用户定义的关键字的功能。这将允许您在语法上突出显示您最喜欢的社区贡献的命令。您只需创建一个特殊命名的关键字定义文件,其中包含关键字列表,Stata 将使用可设置的颜色和字体样式(如粗体或斜体)在语法上突出显示这些关键字。您甚至可以创建一个全局关键字定义文件,该文件可以与同一台计算机的所有用户共享。每个用户仍然可以创建自己的本地关键字定义文件,全局文件和本地文件中的关键字都将加载到Do文件编辑器中。
使用一致的 AIC (CAIC) 比较模型。或者,对于小样本量,使用校正后的 AIC (AICc)。
改进后的样条生成工具——新的makespline——支持 B 样条并一次为多个变量生成样条。
同时逼近多个数值积分。自适应 Gauss–Kronrod 和 Simpson 方法。对奇异点的鲁棒性。
新的基于 Boost 的正则表达式函数
允许不同的正则表达式语法
正则表达式是处理字符串数据的强大工具。Stata 的正则表达式在 Stata 18 中变得更加强大,具有更多功能。
可重现的报告使我们能够在分析发生变化时简化呈现我们的发现的过程。无论我们的工作方向发生变化还是我们实施同行的反馈,用我们的研究结果创建一份报告很少是一次性的任务。Stata 的可重现报告功能使我们能够随着分析的变化轻松修改和调整我们的报告。
在 Stata 18 中,我们为 putdocx 和 putexcel 添加了功能,允许您进一步自定义可重现的报告。现在您可以使用putexcel添加页眉、页脚和分页符。您还可以冻结工作表中的一行或一列;这使您可以在视图中保留该行或列中的信息,同时滚动浏览工作表的其余部分。此外,您可以创建命名的单元格区域以简化公式的使用。我们还使用 putdocx 添加了对书签的支持; 只需将您的文本格式化为书签,并根据需要链接到它。此外,在将图像添加到 .docx 文件时,您现在可以为要由语音软件读取的图像指定替代文本。
putdocx中的新功能
o 在段落和表格中包含书签
o 包括可供图像语音软件阅读的替代文本
o 包括可缩放矢量图形 (.svg) 图像
putexcel中的新功能
o 将工作表冻结在特定的行或列
o 在特定行或列插入分页符
o 在工作表中插入页眉和页脚
o 在单元格中包含超链接
o 创建命名单元格区域
想要散点图中点的颜色来反映年龄组吗?或者想要条形图中条形的颜色反映收入水平?或者想要点图中点的颜色来反映健康状况?
在 Stata 18 中,新的colorvar()选项允许许多双向图根据变量的值改变标记、条形等的颜色。
o 使用标记颜色来传达可变信息
o 连续或离散地改变颜色
o 指定颜色应如何链接到颜色变量的值
o 适用于许多双向图,包括散点图和条形图
您在内存中使用多个数据集,也称为帧。当这些数据集相关时——也许它们在同一个项目中使用或相互链接——你现在可以将它们捆绑在一个框架集中。将所有数据集保存在一个文件中。以后一起使用它们。
快!精准!易于使用! Stata是一个完整的集成软件包,可提供您的所有数据科学需求 - 数据处理,可视化,统计和自动报告。
掌握您的数据
广泛的统计功能
出版质量的图形
自动报告
真正可重复的研究
PyStata — Python 集成
真实文档
值得信赖
简单易用
易于掌握
易于自动化
易于扩展
高级编程
自动多核支持
跨平台兼容
世界一流的技术支持
Stata的数据管理功能如下:
同时管理多个数据集
Import, export
JDBC, ODBC, SQL
排序,匹配,合并,加入,追加,创建
内置电子表格
unicode
处理文本或二进制数据
在本地或在Web上访问数据
收集组间的统计信息
BLOBs -strings可以容纳整个文档
数十亿个观测值
数万个变量数
生存数据, 面板数据, 多级数据, 调查数据, 多重插补数据, 分类数据, 时间序列数据
更重要的是,支持您的所有数据科学需求。
Stata可以轻松生成出版品质,风格独特的图形。
您可以指向并单击以创建自定义图形。或者,您可以编写脚本以可重现的方式生成数百或数千个图形。将图形导出为EPS或TIFF进行发布,导出为PNG或SVG进行Web导出,或者导出为PDF进行查看。使用集成的Graph Editor,您可以单击以更改有关图形的任何内容或添加标题,注释,线条,箭头和文本。
自动报告结果所需的所有工具 。
动态Markdown文档
创建Word文档
创建PDF文档
创建Excel文件
可定制的表格
图形方案
Word,HTML,PDF,SVG,PNG
很多人谈论可重复的研究。
Stata 已经致力于它超过30年。
我们不断添加新功能; 我们甚至从根本上改变了语言元素。不管。Stata 是唯一具有集成版本控制的统计软件包。如果你在1985年编写了一个脚本来执行分析,那么同样的脚本仍然可以运行,并且今天仍会产生相同的结果。您在1985年创建的任何数据集,今天都可以阅读。在2050年也是如此.Stata 将能够运行你今天所做的任何事情。
以交互方式调用Python或将Python嵌入到您的Stata代码中。
从Python调用Stata并从IPython环境调用Stata代码。
在Jupyter Notebook中使用Stata。
在Stata和Python之间无缝传递数据和结果。
从Python内部使用Stata分析。
在Stata中使用任何Python包
Matplotlib和Seaborn进行可视化
美丽的汤和Scrapy用于网页抓取
NumPy和熊猫进行数值分析
TensorFlow和scikit-learn用于机器学习
以及更多
我们的每个数据管理功能都经过充分解释和记录,并在实际示例中显示。每个估算器都有完整的文档记录,包括几个关于实际数据的示例,以及如何解释结果的真实讨论。这些示例为您提供数据,以便您可以在 Stata 中工作甚至扩展分析。我们为您提供每个功能的快速入门,展示一些最常见的用途。想要更多细节?我们的方法和公式部分提供了计算内容的具体信息,我们的参考文献为您提供了更多信息。 Stata 是一个很大的包,所以有很多文档 - 超过18,000页,共35卷。但不要担心,键入 help ,Stata 将搜索其关键字,索引,甚至社区提供的包,为您带来您需要了解的主题。一切都在Stata内可用。
我们不仅编程统计方法,还对它们进行验证。
您从 Stata 估算器看到的结果取决于与其他估算器的比较,一致性和覆盖率的蒙特卡洛模拟以及我们的统计人员进行的广泛测试。我们运送的每一个Stata都通过了一套认证套件 ,其中包括410万行测试代码,可产生580万行输出。我们对580万行输出中的每个数字和一段文本进行认证。
Stata 的所有功能都可以通过 菜单,对话框,控制面板,数据编辑器,变量管理器,图形编辑器甚至 SEM 图形生成器来访问。您可以通过任何分析指向并单击您的方式。
如果您不想编写命令和脚本,则不必这样做。
即使您指向并单击,也可以记录所有结果,然后将其包含在报告中。您甚至可以保存您的操作创建的命令,并在以后重现您的完整分析。
Stata 执行任务的命令直观易学。更好的是,您从执行任务中学到的所有知识都可以应用于其他任务。例如,您只需在任何命令中添加“ gender =“ =” female“,即可将分析范围限制为样本中的女性。您只需将 vce(robust)添加到任何估计量中,即可获得对许多常见假设都具有鲁棒性的标准误差和假设检验。
一致性更加深入。您从数据管理命令中学到的知识通常适用于估算命令,反之亦然。还有一整套后估计命令,用于执行假设检验,形成线性和非线性组合,进行预测,形成对比,甚至使用交互作用图执行边际分析。在几乎每个估算器之后,这些命令都以相同的方式工作。
排序命令以读取和清除数据,然后执行统计测试和估计,最后报告结果是可重复研究的核心。Stata 使所有研究人员都可以访问此过程。
每个人都有他们一直在做的任务 - 创建特定类型的变量,生成特定的表,执行一系列统计步骤,计算 RMSE 等。可能性是无穷无尽的。Stata 有数千个内置程序,但可能拥有相对独特的任务或者您希望以特定方式完成的任务。
如果您编写了一个脚本来执行给定数据集上的任务,则可以轻松地将该脚本转换为可用于所有数据集,任何变量集以及任何观察集的内容。
自动化的一些内容可能非常实用。只需一点代码,就可以将自动化脚本转换为 Stata 命令。支持 Stata 官方命令支持的标准功能的命令。可以与使用官方命令相同的方式使用的命令。
Stata 还包括一种高级编程语言-Mata。
Mata 具有您期望在编程语言中使用的结构,指针和类,并为矩阵编程添加了直接支持。
Mata 既是一个用于操作矩阵的交互式环境,也是一个可以生成编译和优化代码的完整开发环境。它包括处理面板数据的特殊功能,对实际或复杂矩阵执行操作,为面向对象编程提供全面支持,并与 Stata 的各个方面完全集成。
充分利用您的多核计算机。
没有其他统计软件可以与之匹敌。
以最快的速度享受 Stata 18 的新功能。
Stata 将在 Windows,Mac 和 Linux / Unix 计算机上运行;但是,我们的许可证不是特定于平台的。
这意味着,如果您有一台 Mac 笔记本电脑和 Windows 台式机,则不需要两个单独的许可证即可运行Stata。您可以在任何受支持的平台上安装 Stata 许可证。Stata 数据集,程序和其他数据可以在不进行翻译的情况下跨平台共享。您还可以快速轻松地从其他统计数据包,电子表格和数据库中导入数据集。
Stata/MP, Stata/SE, Stata/BE 三个版本
Stata/MP : 最快的 Stata 版本(四核,双核和多核/多处理器计算机),可以分析最大的数据集。
Stata/SE : 标准版; 对于更大的数据集。
Stata/BE : 基础版; 用于中型数据集。
Stata/SE 和 Stata/BE 的区别仅在于每个数据集可以分析的数据集大小不同。与 Stata/BE(最多798个)相比,Stata/SE(最多10,998个)和 Stata/MP(最多65,532个)可以拟合具有更多自变量的模型。Stata/SE 最多可以分析20亿个观测值。
Stata/BE 允许具有多达2,048个变量和20亿个观测值的数据集。一个模型中的 Stata/BE 最多可包含798个独立变量。
Stata/MP 是最快,最大的 Stata 版本。实际上,当前任何一台计算机都可以利用 Stata/MP 的高级多处理功能。这包括Intel i3, i5, i7, i9, Xeon, Celeron, and AMD multi-core chips。在双核芯片上,根据耗时的估算命令,Stata/MP的总体运行速度提高40%,在重要的位置运行速度提高72%。Stata / MP具有两个以上的内核或处理器,速度甚至更快。
Stata MP,Stata/SE和Stata/BE均可在任何计算机上运行,但Stata/MP的运行速度更快。您可以购买Stata/MP许可证,最多可获取计算机上的内核数量(最多64个)。例如,如果您的计算机具有八个核心,则可以为八个核心,四个核心或两个核心购买Stata/MP许可证。
Stata/MP还可以分析比其他任何版本的Stata更多的数据。如果使用当前最大的计算机,Stata/MP可以分析100到200亿个观测值,并且一旦计算机硬件赶上来,就可以分析多达1万亿个观测值。
在执行计算密集型估计程序时,速度通常是最关键的。包括线性回归在内的一些 Stata 估计程序几乎是完全并行的,这意味着它们在两个内核上的运行速度是原来的两倍,在四个内核上的运行速度是原来的四倍,在八个内核上的运行速度是其八倍,等等。一些估计命令可以比其他命令更多地并行化。以中位数计算,估计命令在 2 核上的运行速度快 1.7 倍,在 4 核上快 2.6 倍,在 8 核上快 3.4 倍。
在管理大型数据集时,速度也很重要。添加新变量几乎可实现 100% 并行计算,而排序时的并行计算可到达 61% 。
Product features | |||||||
(Basic Edition) | (Standard Edition) |
|
|||||
|
Up to 2,048 variables | Up to 32,767 variables | Up to 120,000 variables | ||||
|
2.14 billion | 2.14 billion | Up to 20 billion | ||||
|
Fast | Fast |
|
||||
|
20 seconds | 20 seconds |
|
||||
|
798 | 10,998 | 65,532 | ||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
1 GB | 2 GB |
|
||||
|
2 GB | 2 GB |
|
点击列表链接查看视频功能演示 |
|
Lasso|套索估计量 Reproducible reporting|研究报告的可重复性 Meta-Analysis|元分析 Choice Models|选择模型 Python Integration|Python集成 Bayes—multiple chains, more|贝叶斯分析新功能 Panel-data ERMs|面板数据ERM Import Data from SAS and SPSS |从SAS和SPSS导入数据 Nonparametric series regression |非参数序列回归 Frames — multiple datasets in memory|帧-内存中的多个数据集 Panel-data mixed logit | 面板数据 |
Nonlinear DSGE models|非线性 DSGE 模型 Multiple-group IRT | 多组IRT xtheckman|xtheckman新命令 NLMEMs with lags: PK models | PK模型 Heteroskedastic ordered probit | 异方差有序概率 Point sizes for graphics | 图形 Numerical integration Linear programming | 线性回归 Mac interface | Mac介面 Do-file Editor autocompletion |do 文件编辑器 Sample-size analysis for CIs |
功能名称 | 功能介绍 |
线性模型 (Linear models) |
regression • censored outcomes • endogenous regressors • bootstrap, jackknife, and robust and cluster–robust variance • instrumental variables • three-stage least squares • constraints • quantile regression • GLS • DID • more |
面板/纵向数据 (Panel/longitudinal data) |
random and fixed effects with robust standard errors • linear mixed models • random-effects probit • GEE • random- and fixed-effects Poisson • dynamic panel-data models • instrumental variables • DID • panel unit-root tests • more |
多级混合效应模型 (Multilevel mixed-effects models) |
continuous, binary, count, and survival outcomes • two-, three-, and higher-level models • generalized linear models • nonlinear models • random intercepts • random slopes • crossed random effects • BLUPs of effects and fitted values • hierarchical models • residual error structures • DDF adjustments • support for survey data • more |
二进制、计数和有限结果 (Binary, count, and limited outcomes) |
logistic, probit, tobit • Poisson and negative binomial • conditional, multinomial, nested, ordered, rank-ordered, and stereotype logistic • multinomial probit • zero-inflated and left-truncated models • selection models • marginal effects • more |
选择模型 (Choice models) |
discrete choice • rank-ordered alternatives • conditional logit • multinomial probit • nested logit • mixed logit • panel data • case-specific and alternative-specific predictors • interpret results—expected probabilities, covariate effects, comparisons across alternatives • more |
扩展回归模型(ERMs) (Extended regression models (ERMs)) |
endogenous covariates • sample selection • nonrandom treatment • panel data • account for problems alone or in combination • continuous, interval-censored, binary, and ordinal outcomes • more |
广义线性模型(GLMs) (Generalized linear models (GLMs)) |
ten link functions • user-defined links • seven distributions • ML and IRLS estimation • nine variance estimators • seven residuals • more |
有限混合模型(FMMs) (Finite mixture models (FMMs)) |
fmm: prefix for 17 estimators • mixtures of a single estimator • mixtures combining multiple estimators or distributions • continuous, binary, count, ordinal, categorical, censored, truncated, and survival outcomes • more |
空间自回归模型 (Spatial autoregressive models) |
spatial lags of dependent variable, independent variables, and autoregressive errors • fixed and random effects in panel data • endogenous covariates • analyze spillover effects • more |
方差分析/多变量方差分析 (ANOVA/MANOVA) |
balanced and unbalanced designs • factorial, nested, and mixed designs • repeated measures • marginal means • contrasts • more |
精确统计 (Exact statistics) |
standardization of rates • case–control • cohort • matched case–control • Mantel–Haenszel • pharmacokinetics • ROC analysis • ICD-10 • more |
流行病学 (Epidemiology) |
standardization of rates • case–control • cohort • matched case–control • Mantel–Haenszel • pharmacokinetics • ROC analysis • ICD-10 • more |
动态随机一般均衡模型 (DSGE models) |
specify models algebraically • solve models • estimate parameters • identification diagnostics • policy and transition matrices • IRFs • dynamic forecasts • Bayesian • more |
测试、预测和结果 (Tests, predictions, and effects) |
Wald tests • LR tests • linear and nonlinear combinations • predictions and generalized predictions • marginal means • least-squares means • adjusted means • marginal and partial effects • forecast models • Hausman tests • more |
差异、成对比较和差数 (Contrasts, pairwise comparisons, and margins) |
compare means, intercepts, or slopes • compare with reference category, adjacent category, grand mean, etc. • orthogonal polynomials • multiple-comparison adjustments • graph estimated means and contrasts • interaction plots • more |
再抽样及模拟方法 (Resampling and simulation methods) |
bootstrap • jackknife • Monte Carlo simulation • permutation tests • exact p-values • more |
多变量方法 (Multivariate methods) |
factor analysis • principal components • discriminant analysis • rotation • multidimensional scaling • Procrustean analysis • correspondence analysis • biplots • dendrograms • user-extensible analyses • more |
时间序列 (Time series) |
ARIMA • ARFIMA • ARCH/GARCH • VAR • VECM • multivariate GARCH • unobserved-components model • dynamic factors • state-space models • Markov-switching models • business calendars • tests for structural breaks • threshold regression • forecasts • impulse–response functions • unit-root tests • filters and smoothers • rolling and recursive estimation • Bayesian • more |
生存分析 (Survival analysis) |
Kaplan–Meier and Nelson–Aalen estimators, • Cox regression (frailty) • parametric models (frailty, random effects) • competing risks • hazards • time-varying covariates • left-, right-, and interval-censoring • Weibull, exponential, and Gompertz models • more |
贝叶斯分析 (Bayesian analysis) |
thousands of built-in models • univariate and multivariate models • linear and nonlinear models • panel data • multilevel models • VAR • DSGE • continuous, binary, ordinal, and count outcomes • bayes: prefix for 58 estimation commands • continuous univariate, multivariate, and discrete priors • add your own models • multiple chains • convergence diagnostics • posterior summaries • hypothesis testing • model fit • model comparison • predictions • dynamic forecast • impulse-response functions • more |
元分析 (Meta-analysis) |
effect sizes • common, fixed, and random effects • forest, funnel, and more plots • subgroup, leave-one-out, and cumulative analysis • meta-regression • small-study effects • publication bias • multivariate • more |
功效、精度和样本大小 (Power, precision, and sample size) |
power • sample size • effect size • minimum detectable effect • CI width • means • proportions • variances • correlations • ANOVA • regression • cluster randomized designs • case–control studies • cohort studies • contingency tables • survival analysis • balanced or unbalanced designs • results in tables or graphs • more |
治疗效果/因果推断 (Treatment effects/Causal inference) |
inverse probability weight (IPW) • doubly robust methods • propensity-score matching • regression adjustment • covariate matching • DID • multilevel treatments • endogenous treatments • average treatment effects (ATEs) • ATEs on the treated (ATETs) • potential-outcome means (POMs) • continuous, binary, count, fractional, and survival outcomes • panel data • lasso • more |
Lasso回归模型 (Lasso) |
lasso • elastic net • model selection • prediction • inference • continuous, binary, and count outcomes • cross-validation • adaptive lasso • double selection • partialing out • cross-fit partialing out • double machine learning • endogenous covariates • treatment effects • more |
结构方程模型(SEM) (SEM (structural equation modeling)) |
graphical path diagram builder • standardized and unstandardized estimates • modification indices • direct and indirect effects • continuous, binary, count, ordinal, and survival outcomes • multilevel models • random slopes and intercepts • factor scores, empirical Bayes, and other predictions • groups and tests of invariance • goodness of fit • handles MAR data by FIML • correlated data • survey data • more |
潜伏组分析 (Latent class analysis) |
binary, ordinal, continuous, count, categorical, fractional, and survival items • add covariates to model class membership • combine with SEM path models • expected class proportions • goodness of fit • predictions of class membership • more |
多重估算 (Multiple imputation) |
nine univariate imputation methods • multivariate normal imputation • chained equations • explore pattern of missingness • manage imputed datasets • fit model and pool results • transform parameters • joint tests of parameter estimates • predictions • more |
调查方法 (Survey methods) |
multistage designs • bootstrap, BRR, jackknife, linearized, and SDR variance estimation • poststratification • raking • calibration • DEFF • predictive margins • means, proportions, ratios, totals • summary tables • almost all estimators supported • more |
聚类分析 (Cluster analysis) |
hierarchical clustering • kmeans and kmedian nonhierarchical clustering • dendrograms • stopping rules • user-extensible analyses • more |
项目反应理论(IRT) (IRT (item response theory)) |
binary (1PL, 2PL, 3PL), ordinal, and categorical response models • item characteristic curves • test characteristic curves • item information functions • test information functions • multiple-group models • differential item functioning (DIF) • more |
网络分析 (Network analysis) |
nwcommands: import and manipulate networks • generate networks • calculate centrality and dissimilarity measures • visualize networks • more |
数据[资料]管理 (Data manipulation) |
data transformations • data frames • match-merge • import/export data • JDBC • ODBC • SQL • Unicode • by-group processing • append files • sort • row–column transposition • labeling • save results • more |
报表 (Reporting) |
reproducible reports • customizable tables • graphical tables builder • Word • Excel • PDF • HTML • dynamic documents • Markdown • Stata results and graphs • SVG • EPS • PNG • TIF • more |
绘图 (Graphics) |
lines • bars • areas • ranges • contours • confidence intervals • interaction plots • survival plots • publication quality • customize anything • Graph Editor • more |
编程特点 (Programming features) |
adding new commands • scripting • object-oriented programming • menu and dialog-box programming • dynamic documents • Markdown • Project Manager • Python integration • PyStata • Jupyter notebook • Java integration • Java plugins • H2O access • C/C++ plugins • more |
矩阵编程 Mata—Stata重要编程语言 (Mata—Stata's serious programming language) |
interactive sessions • large-scale development projects • optimization • matrix inversions • decompositions • eigenvalues and eigenvectors • LAPACK engine • Intel® MKL • real and complex numbers • string matrices • interface to Stata datasets and matrices • numerical derivatives • object-oriented programming • more |
图形用户界面 (Graphical user interface) |
menus and dialogs for all features • Data Editor • Variables Manager • Graph Editor • Project Manager • Do-file Editor • multiple preference sets • more |
参考资料 (Documentation) |
35 manuals • 18,000+ pages • seamless navigation • thousands of worked examples • quick starts • methods and formulas • references • more |
基本统计 (Basic statistics) |
summaries • cross-tabulations • correlations • z and t tests • equality-of-variance tests • tests of proportions • confidence intervals • factor variables • more |
非参数方法 (Nonparametric methods) |
nonparametric regression • Wilcoxon–Mann–Whitney, Wilcoxon signed ranks, and Kruskal–Wallis tests • Cochran–Armitage and other trend tests • Spearman and Kendall correlations • Kolmogorov–Smirnov tests • exact binomial CIs • survival data • ROC analysis • smoothing • bootstrapping • more |
GMM与非线性回归 (GMM and nonlinear regression) |
generalized method of moments (GMM) • nonlinear regression • more |
简单最大概似法 (Simple maximum likelihood) |
specify likelihood using simple expressions • no programming required • survey data • standard, robust, bootstrap, and jackknife SEs • matrix estimators • more |
可编程最大概似法 (Programmable maximum likelihood) |
user-specified functions • NR, DFP, BFGS, BHHH • OIM, OPG, robust, bootstrap, and jackknife SEs • Wald tests • survey data • numeric or analytic derivatives • more |
其他统计方法 (Other statistical methods) |
kappa measure of interrater agreement • Cronbach's alpha • stepwise regression • tests of normality • more |
函数 (Functions) |
statistical • random-number • mathematical • string • date and time • regular expressions • Unicode • more |
互联网功能 (Internet capabilities) |
search and download thousands of community-contributed features (see below) • web updating • web file sharing • latest Stata news • more |
网络社区功能 (Community-contributed features) |
search and download thousands of free additions • discover new features in the Stata Journal • share commands by posting to the SSC • discuss community-contributed features on Statalist • more |
嵌入式统计计算 (Embedded statistical computations) |
Numerics by Stata • more |
安装验证 (Installation Qualification) |
IQ report for regulatory agencies such as the FDA • installation verification • more |
FDA规则 (FDA Compliance) |
Adherence to FDA regulatory requirement for statistical software • more |
无障碍访问 (Accessibility) |
Section 508 compliance, accessibility for persons with disabilities • more |
样本范例 (Sample session) |
A sample session of Stata for Mac, Unix, or Windows. |
1. 表格 (Tables)
用户一直希望我们提供更完美的表格,现在您可以很容易地创建比较回归结果或汇总统计数据的表格,您可以创建样式并将其应用于您构建的任何表,还可以将表导出到MS Word®, PDF, HTML, LaTeX, MS Excel®, 并将它们插入到报告中。新版本修改了table命令,新的 collective 前缀可以从任意多个命令收集任意多的结果,生成表格,并将其导出为多种格式等。您还可以使用新的Tables Builder来单击并创建表格。
2. 贝叶斯计量经济学
Stata能进行计量经济学,也能进行贝叶斯统计,现在Stata能够进行贝叶斯计量经济学!想要用概率性的陈述来回答经济问题,例如:那些参加职业培训项目的人在未来五年里更有可能保持就业吗?想把对经济过程的先验知识结合起来吗?Stata新推出的贝叶斯计量经济学功能可以帮到您。适合许多贝叶斯模型,如横截面模型、面板数据模型、多层模型和时间序列模型。使用贝叶斯因子比较模型,获取更多预测和展望!
在计量经济学建模中使用贝叶斯方法的吸引力之一是将关于通常在实践中可用的模型参数的外部信息纳入其中。这些信息可能来自历史数据,也可能自然来自经济过程的知识。无论哪种方式,贝叶斯方法都可以使我们将外部信息与我们在当前数据中观察到的信息结合起来,以形成对感兴趣的经济过程的更现实的看法。
Stata 17 在贝叶斯计量经济学领域提供了几个新功能:
> Bayesian VAR models /贝叶斯VAR模型
> Bayesian IRF and FEVD analysis /贝叶斯IRF和FEVD分析
> Bayesian dynamic forecasting /贝叶斯动态预测
> Bayesian longitudinal/panel-data models /贝叶斯纵向/面板数据模型
> Bayesian linear and nonlinear DSGE models /贝叶斯线性与非线性DSGE模型
3. 更快的Stata
4. 双重差分(DID)和DDD模型
新的估计命令didregress和xtdidregress具有使用重复测量数据拟合双重差分(DID)模型和三重差分(DDD)模型。 didregress适用于重复横截面数据,xtdidregress适用于纵向/面板数据。
采用DID和DDD模型,用重复测量数据估计平均治疗效果(ATET)。 治疗效果可以是药物方案对血压的影响,也可以是培训计划对就业的影响。 与现有的teffects命令可用的标准横截面分析不同,DID分析可控制估计ATET时的组和时间效应,组可在其中识别重复的度量。DDD分析控件可控制其他组效果及其与时间的相互作用——您最多可以指定三个组变量或两个组变量和一个时间变量。
5. 区间删失Cox模型
半参数Cox比例风险回归模型通常用于分析未删失和右删失的事件时间数据。 新的估计命令stintcox可使用Cox模型,来估计删失事件时间数据。当未直接观察到发生某个事件(例如癌症复发)的时间,但已知该时间间隔在某个时间间隔内时,便会进行时间间隔检查。例如,可以在定期检查之间检测到癌症的复发,但是无法观察到确切的复发时间。我们只知道在先前检查和当前检查之间的某个时间复发了癌症。忽略区间删失可能会导致错误的结果(有偏差的)。
当没有完全指定基线风险函数时,对区间删失事件时间数据进行半参数估计是一项挑战,因为没有一个事件时间是被精确地观测到的。
因此,这些数据的“半参数”建模通常采用样条方法或分段指数模型作为基线风险函数。直到最近的方法学进展(在stintcox命令中实现)之后,才提供真正的区间删失事件时间数据的半参数建模。
6. 多维元分析
您想分析多项研究的结果。这些研究报告了多个效应量,这些效应量很可能在一项研究中相互关联。单独的meta分析(例如使用现有meta命令的那些meta分析)将忽略相关性。现在,您可以使用新的meta mvregress命令执行多维元分析,这将解释相关性。
7. 贝叶斯VAR模型
贝叶斯前缀现在支持var命令以拟合贝叶斯矢量自回归(VAR)模型。VAR模型通过将结果变量的滞后时间作为模型预测变量来研究多个时间序列之间的关系。已知这些模型具有许多参数:对于K个结果变量和标记,至少存在p(K ^ 2 + \ nn1)个参数。对模型参数的可靠估计可能会遇到挑战,尤其是在使用小型数据集的情况下。贝叶斯VAR模型通过整合有关模型参数的先验信息来稳定参数估计,从而克服了这些挑战。
8. PyStata
Stata 17引入了一个我们称之为PyStata的概念。PyStata是一个涵盖了Stata和Python可以交互的所有方式的术语。
Stata 16具有从Stata调用Python代码的功能。Stata 17允许您通过一个新的pystata Python包从一个独立的Python环境中调用Stata,从而极大地扩展了此功能。您可以在基于IPython内核的环境(例如Jupyter Notebook和控制台以及Jupyter Lab和控制台)中方便地访问Stata和Mata。
在其他支持IPython内核的环境中(例如,Spyder IDE和PyCharm IDE);或从命令行访问Python(例如Windows命令提示符,macOS终端,Unix终端和Python的IDLE)时。
9. Lasso治疗效果评估
您可以使用teffects 来估计治疗效果。您可以使用Lasso来控制许多协变量。(当我们说“很多”时,可以理解为成百上千甚至更多!)现在,您可以使用telasso来估计治疗效果并控制许多协变量。
10. Galbraith图
新命令meta galbraithplot生成Galbraith图以进行元分析。这些图可用于评估研究的异质性和检测潜在的异常值。当有许多研究时,它们还可以用作森林图forest plots的替代方案,以总结元分析结果。
11. 留一元分析
现在,您可以通过使用meta summarize和meta forestplot的新选项leaoneout来执行留一元分析。留一元分析通过在每次分析中排除一项研究来执行多种元分析。研究通常会产生夸大的效应大小,这可能会扭曲整体结果。留一元分析可用于研究每项研究对总体效应量估计的影响,并确定有影响力的研究。
12. 贝叶斯纵向/面板模型
通过使用xtreg表示连续结果,xtlogit或xtprobit表示二进制结果,xtologit或xtoprobit表示序数结果等,可以拟合随机效应面板数据模型。在Stata 17中,您可以简单地通过在它们前面加上Bayes前缀来拟合这些模型的Bayesian版本。
13. 面板多项逻辑模型
Stata的新估计命令xtmlogit可使用面板多项逻辑(MNL)模型,以对随时间推移观察到的分类结果进行分类。假设我们手机了几个星期关于个人对餐馆选择的数据。餐馆的选择是没有自然排序的分类结果,因此我们可以使用现有的mlogit命令(带有聚类稳健的标准误)。但是xtmlogit直接对单个特征建模,因此可能会产生更有效的结果。并且它可以很好地解释可能与协变量相关的特征。
14. 零膨胀排序逻辑模型
新的估计命令ziologit适合零膨胀排序逻辑回归模型。这个模型是在当数据在最低类别中的观测值比例高于标准有序逻辑模型的预期值时使用的。我们将最低类别中的观测值称为零,因为它们通常对应于某一行为或特征的缺失。零膨胀是通过假设零同时来自逻辑模型和有序逻辑模型来解释的。每个模型可以具有不同的协变量,并且结果可以显示为优势比而不是默认系数。
15. 贝叶斯多层次模型:非线性、联合、类SEM等
您可以使用bayesmh命令的新的精美随机效果语法来拟合贝叶斯多级模型的广度。您可以更轻松地拟合单变量线性和非线性多级模型。现在,您可以拟合多元线性和非线性多级模型!考虑增长线性和非线性多级模型,联合纵向和生存时间模型,SEM型模型等等。
16. 贝叶斯动态预测
在拟合多元时间序列模型(例如向量自回归(VAR)模型)之外,动态预测是一种常见的预测工具。拟合经典var模型后,可以使用fcast计算动态预测。 使用bayes:var拟合贝叶斯var模型后,现在可以使用bayesfcast 来计算贝叶斯动态预测。贝叶斯动态预测会生成整个预测值样本,而不是像传统分析中那样生成单个预测。该样本可用于解答各种建模问题,例如,在估计预测不确定性时,在不做出渐近正态性假设的前提下,该模型对未来观测的预测程度如何。这对于可能会出现渐近正态性假设的小型数据集尤其有吸引力。
17. 贝叶斯IRF与FEVD分析
脉冲响应函数(IRF),动态乘数函数和预测误差方差分解(FEVD)通常用于描述多元时间序列模型(例如VAR模型)的结果。VAR模型具有许多参数,可能难以逐个解释。 IRFs和其他函数将多个参数的影响合并为一个摘要(每个时间段)。例如,IRFs测量一个变量对给定结果变量的冲击(变化)的影响。贝叶斯IRFs(和其他函数)使用IRFs的“精确”后验分布产生结果,这不依赖于渐近正态性的假设。它们还可以为小型数据集提供更稳定的估计,因为它们合并了有关模型参数的先验信息。
18. 使用 BIC 选择Lasso惩罚参数
惩罚参数的选择是lasso分析的基础。套用少量的惩罚可能会包含太多变量。套用较大的惩罚可能会忽略潜在的重要变量。lasso估计已经提供了几种惩罚选择方法,包括交叉验证,自适应和插件。现在,您可以使用贝叶斯信息准则(BIC)通过指定selection(bic)选项在Lasso进行预测和Lasso进行推理之后选择惩罚参数。同样,在拟合Lasso模型后,新的后估计命令bicplot将BIC值绘制为惩罚参数的函数。这为惩罚参数的值提供了方便的图形表示形式,从而使BIC功能最小化。
19. lasso聚类数据
现在,您可以在Lasso分析中解释集群数据。忽略聚类可能会导致错误结果,因为同一聚类中的观测值之间存在相关性。使用Lasso命令进行Lasso和Elasticnet等预测,您可以指定新的cluster({\ it clustvar})选项。使用Lasso命令进行推断(例如:poregress),您可以指定新的vce(cluster {\ it clustvar})选项。
20. 贝叶斯线性和非线性DSGE模型
现在,可以通过在dsge和dsgenl前面加上前缀Bayes:来拟合贝叶斯线性和非线性动态随机一般均衡(DSGE)模型。通过从30多种不同的先验分布中进行选择,合并有关模型参数范围的信息。执行贝叶斯IRF分析,执行区间假设检验,使用贝叶斯因子比较模型等等。
21. Jupyter Notebook与Stata
Jupyter Notebook是一个功能强大且易于使用的Web应用程序,它允许您将在单个文档(“笔记本”)中将可执行代码、可视化、数学方程式和公式、叙述文本以及其他富媒体组合在一起,以进行交互式计算和开发。 它已被研究人员和科学家广泛使用,以分享他们的想法和成果,进行协作和创新。
在Stata 17中,作为PyStat的一部分,您可以使用IPython(交互式Python)内核从Jupyter Notebook调用Stata和Mata。这意味着您可以在一个环境中结合使用Python和Stata的功能,以使您的工作易于复制和与他人共享。
从Jupyter Notebook调用Stata是由新的pystata Python软件包驱动的。
22. 日期和时间的新功能
Stata 17增加了新的便利功能,用于处理Stata和Mata中的日期和时间。 新功能可以分为三类:
1.Datetime持续时间:旨在获取持续时间的函数(例如ages)。
2.相对日期:基于其他日期返回日期的函数,例如相对于给定日期的下一个生日。
3.Datetime组件:从日期时间值中提取不同成分的函数。
新功能将闰年,闰日和闰秒(如果适用的话)考虑在内。
闰秒是一秒的调整,偶尔会应用于协调世界时(UTC)。
23. Intel数学内核库(MKL)
Stata 17引入了在兼容硬件(所有基于Intel和AMD的64位计算机)上使用Intel Math Kernel Library(MKL)的方法,并提供了深度优化的LAPACK例程。
LAPACK是线性代数包的缩写,它是一套用于求解联立方程组、特征值问题和奇值问题等的程序。Mata运算符和函数(如qrd()、lud()和cholesky())在可能的情况下利用LAPACK进行许多数值操作。
由英特尔MKL支持的LAPACK提供了最新的LAPACK例程,这些例程针对现代Intel和现代AMD处理器使用的64位Intel x86-64指令集进行了优化。使用MKL的Mata函数和运算符在性能方面大有裨益。最重要的是,您无需采取任何措施即可充分利用速度的提高。使用这些Mata函数和运算符的Stata命令以及Mata函数和运算符本身,将在兼容硬件上自动使用Intel MKL。
24. Stata on Apple Silicon
Stata 17 for Mac是一款通用应用程序,可以在Apple Silicon和Intel处理器的Mac上运行。采用Apple Silicon的Mac电脑包括新款MacBook Air、MacBook Pro和Mac mini,均采用M1处理器。M1芯片承诺有更高的性能和更大的功能效率。这对于我们的Stata-for-Mac用户来说是值得注意的,他们中的许多人使用Mac笔记本电脑。
虽然第一套M1 mac被认为是入门级的,但我们发现,本机运行Stata的M1 mac比英特尔mac的性能要好30-35%。它们的性能甚至远远超过价格超过两倍的Intel Mac!对于只坚持在其Apple Silicon Mac上使用Apple-Siliconnative软件的用户,从安装程序到应用程序本身,Stata 17的任何部分都不需要用到Rosetta 2。
无论您是在M1 Mac上还是在Intel Mac上本地运行Stata,Stata的功能都相同,并且M1 Mac不需要特殊的许可证。英特尔Mac用户应注意,未来几年,我们将继续支持并发布适用于英特尔处理器的Mac的新版本Stata。
25. JDBC
将Stata与数据库连接变得更加容易了。Stata 17添加了对JDBC(Java数据库连接)的支持。 新的jdbc命令支持JDBC标准,用于与具有矩形数据的关系数据库或非关系数据库管理系统交换数据。您可以从一些最受欢迎的数据库供应商中导入数据,例如Oracle,MySQL,Amazon Redshift,Snowflake,Microsoft SQL Server等。
jdbc的优点在于它是一个跨平台的解决方案,因此我们的JDBC设置适用于Windows,Mac和Unix系统。如果您的数据库供应商提供了JDBC驱动程序,则可以下载并安装该驱动程序,然后通过jdbc在数据库上读取,写入和执行SQL。 您可以将整个数据库表加载到Stata中,也可以使用SQL SELECT将表中的特定列加载到Stata中。您还可以将所有变量插入数据库表中,或仅插入数据集的子集。
26. Java集成
在Stata 17中,您现在可以直接在Stata中嵌入和执行Java代码。您可以在以前的Stata版本中创建和使用Java插件,但这需要您编译代码并将其打包到Jar文件中。在do文件中执行Java可以让您自由地执行直接与Stata代码绑定的Java代码。现在,您可以在do-file或ado-file中编写Java代码,甚至可以从Stata中交互式地调用Java(如JShell)。
Java的优势之一在于与Java虚拟机打包在一起的广泛的APIs。还有许多有用的第三方库。根据您需要执行的操作,您甚至可以编写并行代码以利用多核运算。您编写的Java代码可以即时编译,无需使用外部编译器!此外,还包括Stata函数接口(SFI)Java软件包,提供了Stata与Java之间的双向连接。
SFI包具有访问Stata当前数据集,帧,宏,标量,矩阵,值标签,特征,全局Mata矩阵,日期和时间值等的类。Stata将Java开发工具包(JDK)与其安装捆绑在一起,因此不涉及其他设置。
27. H2O集成
在Stata 17中,我们一直在尝试连接H2O,H2O是一种可扩展的分布式开源机器学习和预测分析平台。您可以在https://docs.h2o.ai/上了解有关H2O的更多信息。
借助H2O的集成,您可以从Stata上启动,连接和查询H2O集群。此外,我们提供了一组命令来处理集群上的数据(H2O帧)。例如,您可以通过导入数据文件或加载Stata的当前数据集来创建新的H2O框架。您还可以在Stata内部拆分,组合和查询H2O帧。尽管对于我们来说,这仍处于试验阶段,但我们希望将其提供给我们的用户进行试用。
另一方面,由于它是实验性功能,因此语法和功能可能会发生变化。使用提供对H2O特定功能的访问的Stata命令时,请记住这是H2O功能。尽管您可能通过Stata命令访问它,但它的工作取决于H2O,并且不在Stata范围内。
28. do文件编辑器:导航,增强书签…
Stata 17中的“文件”编辑器进行了以下改进:
1. 书签:现在与do文件一起保存。
2. 新的导航控件:可以轻松浏览do文件。
3. 语法高亮显示支持现已包括Java和XML。
4. 选区中引号,括号和方括号的自动补全。 例如,选择文本mymacro,然后输入左引号`;。 然后,文件编辑器将用单引号将文本选择绑定,将选择更改为“ mymacro”。
书签:do文件编辑器最需要的功能之一是能够将书签保存在do文件中。书签用于标记感兴趣的行,以便以后更轻松地导航到它们。书签在浏览长do文件时特别有用。
您可以将书签添加到您的do文件的各个部分,以执行数据管理,显示摘要、统计信息并执行统计分析。然后,您可以使用菜单、工具栏或新的导航控件在这些部分之间快速来回移动,而无需滚动几行代码来查找所需的部分。
导航: Stata 17通过新的导航控件使do文件的导航更加容易,该控件显示书签及其标签的列表。从导航控件中选择一个书签会将“do文件编辑器”移至书签所在的行。除了书签之外,导航控件还将显示do文件中的程序列表。从导航控件中选择一个程序会将“do文件编辑器”移至该程序的释义。无需将其他程序添加到“导航”中。 DO文件编辑器将自动将程序的释义添加到导航控件中。
29. 非参数的趋势检验
现在,nptrend命令支持四种跨有序组的趋势检验。您可以在the Cochran–Armitage test, the Jonckheere–Terpstra test, the linear-by-linear trend test, and the Cuzick test using ranks之间进行选择。前三个检验是新的,而第四个检验由nptrend先前执行。
Lasso
作为大数据Volume的一种重要形式,“高维数据”(high-dimensional data)解释变量很多,甚至超过样本容量。Lasso (Least Absolute Shrinkage and Selection Operator,也称“套索估计量”)及其衍生的系列估计量正是进行高维回归的主要工具。
Lasso系列的官方命令,包括lasso, elasticnet(弹性网)与 sqrtlasso(平方根Lasso),可估计线性回归模型(比如 lasso linear)、二值选择模型(比如,lasso logit 与 lasso probit)、计数模型(比如,lasso poisson)等。
Lasso 系列的估计量通常使用惩罚回归(penalized regressions)来处理高维数据,以避免“过拟合”(overfit)与“方差爆炸”(variance explosion),并进行“变量选择”(variable selection)。这些惩罚回归对于回归系数过大的惩罚力度则一般由调节参数(tuning parameter)或 L1范数(L1 norm)来控制。
使用 Stata 16的Lasso命令,可以很方便地计算回归系数的整个路径(coefficient paths),作为调节参数 或 L1范数的函数;并根据“交叉验证”(cross-validation)选择最优的调节参数 ,参见下图。
Stata 官方命令还提供了 Lasso 系列相应的统计推断方法,比如计算标准误、置信区间,或进行假设检验。这些统计推断方法包括“double-selection lasso”(比如,dsregress,dslogit,dspoisson),“partialling-out lasso”(比如,poregress,pologit,popoisson),以及“cross-fit partialing out lasso”(比如,xporegress,xpologit,xpopoisson)。
Multiple Datasets in Memory
在大数据时代,学界与业界越来越需要在内存中同时处理多个数据集。在此前的 Stata 版本中,Stata 内存只能有一个数据集。这种设置虽简便易行,在小数据时代也基本够用,但在大数据时代,由于数据的来源 Variety 多样,已成为应用的瓶颈。
因此,Stata 适时地推出在内存内同时调用多达100个数据集的重要功能。比如,你可以很方便地根据内存中多个数据集的信息来定义一个新的变量。
Python Integration
随着机器学习与数据科学的兴起,Python 无疑是最炙手可热的编程语言之一。为此,Stata 16 专门提供了一个与 Python 的接口,让用户可以在熟悉的 Stata 界面下调用 Python,并在 Stata 中显示运行结果。
比如,此前的 Stata 版本无法画三维立体图,而在Stata 16中,通过调用Python 的 Matplotlib 则不难实现(参见下图)。
这也意味着,你可以在 Stata 中,通过 Python 接口,使用 Python 所擅长的各种机器学习方法,包括随机森林、梯度提升、支持向量机、神经网络等!
Do-file Editor -- Autocompletion and More Syntax Highlighting
在大数据时代,编程越来越成为一种基本技能。在 Stata 中编程,无疑需要一个很好的 do 文件编辑器(Do-file Editor)。 让人惊喜的是,Stata 的 do 文件编辑器的性能也有了大幅提升,包括 Stata 命令的自动填写完成(autocompletion),以及更多语法高亮显示(syntax highlighting),这无疑将为 Stata 编程提供很大便利。
Meta-Analysis
Stata 提供了全新的 Meta-Analysis 模块,使得元分析变得十分方便、快捷而高效,并辅之以强大的可视化功能(参见下图)。
Reporting
由于大数据的更新频繁特点(Velocity),使得数据分析经常需要重复进行,使用更新的数据。此时,研究报告的可重复性(Reproducibility)就变得日益重要,即保证任何人只要运行你的 Stata 程序即可得到完全一样的研究报告。这些研究报告的格式可以是 Word,PDF,Excel 或 HTML(参见下图)。 随着大数据时代的数据来源 Variety 越来越多,使得我们时常需要将不同来源的样本数据之研究结果整合在一起,即所谓“元分析”(Meta-Analysis)。
而且,当你的数据集更新之后,再运行一遍你的 Stata,则你的研究报告也会相应地自动更新!Stata 16 新引入或完善的相关命令包括 dyndoc,markdown,putdocx,html2docx,doc2pdf。
小贴士:还在发愁如何将 Word 文件转化为 PDF 格式?Stata 16 的 doc2pdf 命令就能帮你搞定!
Import Data from SAS and SPSS
如果你有数据在 SAS 或 SPSS 中,想要导入 Stata 以利用其强大的统计与计量功能,Stata 16 贴心地提供了专门的新命令 import sas 与 import spss,使得这种数据迁移变得十分方便与快捷,参见下图。
Stata 深耕计量经济学的经典与前沿方法
Nonparametric Series Regression
序列回归(series regression)是非参数回归(nonparametric regression)的一种重要方法。它使用多项式(polynomials)、B-样条(B-splines)或样条(splines)所构成的序列来近似逼近任意的未知回归函数。
Stata 推出的命令 npregress series 填补了 Stata 在非参数回归领域的又一空白,使得非参数序列回归变得方便而高效;比如,计算平均边际效应(average marginal effects)。命令 npregress series 甚至可以估计“半参数模型”(semi-parametric model),即同时包含参数与非参数部分的模型。
Choice Models
对于微观计量中常用的“离散选择模型”(discrete choice models),Stata 设立了一个“选择模型”(Choice Models)的模块。在估计选择模型之前,你先通过命令 cmset 来宣布你的数据为选择模型,然后可用命令 cmsummarize,cmchoiceset,cmtab 或 cmsample 来考察你的选择模型。
估计选择模型的相应 Stata 命令也统一带上了 cm 的前缀,比如
cmclogit:conditional logit model
cmmixlogit:mixed logit model
cmxtmixlogit:panel-data mixed logitmodel
cmmprobit:multinomial probitmodel
cmroprobit:rank-ordered probitmodel
cmrologit:rank-ordered logitmodel
其中,cmxtmixlogit 是 Stata 16的全新命令,用于估计面板数据的混合逻辑模型(mixed logit models for panel data)。
Panel-data ERMs
Stata 15 推出了 ERM(Extended Regression Models)模块,可以处理同时出现“内生性”(endogeneity)、“样本选择”(sample selection)与“处理效应”(treatment)这三种并发症的情形,或三者的任意组合,非常灵活实用。Stata 16 则将ERMs 推广到了面板数据中,新引入了xtegress,xteintreg,xteprobit,xteoprobit 等强大命令。
New in Bayesian Analysis
Stata 的“贝叶斯分析”(Bayesian Analysis)模块也有了不少新功能。比如,可使用多个马尔科夫链(multiple chains)来检验现代贝叶斯分析所依赖的马尔科夫链蒙特卡洛(Markov China Monte Carlo)是否收敛;以及使用后验分布(posterior distribution)进行“贝叶斯预测”(Bayesian predictions),参见下图。
Nonlinear DSGE Models
tata 可以通过命令 dsgenl 来估计非线性 DSGE 模型。 使用命令dsgenl,无须再手工将 DSGE 模型线性化,直接输入非线性的 DSGE 模型,Stata 即会自动地对它进行线性化与估计。
xtheckman
xtheckman命令 使得 Heckman 的样本选择模型(sample model)也可以在面板数据中估计。
系统要求
Stata for Windows
Windows 11*
Windows 10 *
Windows Server 2022, 2019, 2016, 2012R2 *
* Stata requires 64-bit Windows for x86-64 processors made by Intel® or AMD (Core i3 equivalent or better)
Stata for Mac
Mac with Apple Silicon or Intel processor (Core i3 or better)
macOS 11.0 (Big Sur) or newer for Macs with Apple Silicon and macOS 10.13 (Sierra) or newer for Macs with 64-bit Intel processors
Stata for Linux
Any 64-bit (Core i3 equivalent or better) running Linux
Minimum requirements include the GNU C library (glibc) 2.17 or better and libcurl4
Check the output of ldd -v within a terminal
For xstata, you need to have GTK 2.24 installed
Hardware requirements
Package | Memory | Disk space |
Stata/MP | 4GB | 2GB |
Stata/SE | 2GB | 2GB |
Stata/BE | 1GB | 2GB |
Stata for Linux requires a video card that can display thousands of colors or more (16-bit or 24-bit color)
在在世界已迈入大数据新时代的今天,Stata 在高校商科类专业、科研院所以及企业界的应用越来越广泛,已成为各大高校必备的专业软件,随着其用户群体的不断扩大,建立中国用户与 Stata 总部之间的沟通和磋商机制越发成熟。聆听用户的心声,收集业界专家的论点与建议,已成为会议的主旨,无论您是为科研应用之路寻找最佳解决方案, 还是专注 Stata 软件探索与研究,抑或是竭力于提高工作效率的数据处理技能,在 Stata 中国用户大会上,您的需求都能得到前所未有的碰撞与共鸣。故 Stata 中国用户大会(China Stata Users' Conference)由此诞生,由北京友万信息科技有限公司(Beijing Uone Info&Tech Co.,Ltd)和StataCorp LLC原厂联合发起,规划每年举办一届,通过广泛的国际学术交流,帮助 Stata 中国用户探索更深层次的理论和研究。我们希望通过每年一届的 Stata 用户会议,让 Stata 中国用户及学者提高自身软件应用水平,开辟“学中用、用中学”的创新学习模式,打造强有力的学术氛围,帮助中国用户建立完善的软件技术服务体系,形成中国用户之间的技术、经验交流平台。
往届 Stata 中国用户大会资源免费奉送,关注 Stata 的小伙半们抓紧时间领取咯!
2024 年第八届 Stata 中国用户大会将于 8 月 19 日至 20 日在南开大学举办。
计量经济学前沿方法研讨会暨“第八届Stata中国用户大会”即将于金秋八月在南开大学隆重举行。会议将邀请国内外计量经济学领域的TOP级大咖担任主讲嘉宾,为与会者提供一个全面了解计量经济学前沿方法和Stata软件实践应用的平台。大会以“计量经济学的前沿方法与Stata软件的实践应用”为主题,旨在运用跨界思维和方法,推动计量经济学等领域的教育创新与发展。同时,会议还将促进国内外计量经济学领域的交流与合作,在会议期间,您将有难得的机会与来自国内外不同领域的顶尖计量经济学专家、资深的Stata软件专家以及前沿的研发工程师深入交流,共同探讨并分享宝贵的学术见解和实践经验。您将第一时间了解到计量经济学领域的最新发展动态,以及Stata软件新功能和新命令。恰逢StataNow全新发布,邀您与StataNow一起,开启数据分析新篇章!此外,会议还将推出《Stata夏令营活动》,为您提供一个学习使用Stata新方法的绝佳机会。无论您是初学者还是资深用户,都能在这里实现自我突破与科研创新。 在南开大学这座百年学府中,您将感受到浓厚的学术氛围和人文气息。我们诚挚邀请您共襄盛举,与众多专家学者共同交流学习,为推动国内经济学等领域的交叉融合贡献智慧和力量。期待您的到来,共同见证这场学术盛事的成功举办!
2023 年第七届 Stata 中国用户大会于 8 月 13 日至 14 日在哈尔滨商业大学成功举办。为促进高水平商科特色高校建设与经济学等其他学科的交叉融合,会议围绕“东北全面振兴与高水平商科大学建设背景下的经济学实证统计方法”为主题,积极开展跨学科的探索性研究与统计相关的研究。会议以数字经济为背景,运用跨界思维和方法,将新技术、新理念、新模式,新方法融入商科教育。与会领导、专家和来自全国各地的业界学者一起,置身于美丽的哈尔滨,穿过百年中央大街,探访中华巴洛克历史文化街区,漫步美丽松花江畔,享受为期两天的 Stata 会议和交流时光!
演讲主题 | 演讲人 |
《Stata 18 新功能应用》 | Stata软件开发者 StataCorp LLC |
《Heterogeneous difference in differences in Stata》 | 刘 迪 StataCorp LLC |
《双重机器学习及Stata应用》 | 陈 强 山东大学 |
《Create customizable tables》 | 徐 朝 StataCorp LLC |
《Instrumental variables quantile regression》 | 刘 迪 StataCorp LLC |
《干预时间序列分析与程序包的比较述评》 | 王群勇 南开大学 |
《因果推断中的控制变量:好的和坏的》 | 连玉君 中山大学 |
《Fitting spatial stochastic frontier models in Stata》 | 杜克锐 厦门大学 |
《Stata与会计研究:资本市场开放与财务报告稳健性》 | 梁上坤 中央财经大学 |
《DID安慰剂检验及Stata应用》 | 颜冠鹏 山东财经大学 |
第六届 Stata 中国用户大会于2022年8月19-20日在线盛大召开。您可以与来自各领域顶尖的 Stata 专家及 Stata 研发工程师一起分享有价值的见解及新命令,学习最前沿的科研方法并提高您的 Stata 应用知识。会议同期还将全新推出《Stata大师课》+《Stata公开课》的夏季联学营活动,无论您是初学者还是专家,欢迎加入我们,并利用这一独特的机会来学习使用 Stata 的新方法。
演讲主题 | 演讲人 |
《Mastering Stata's datetime concepts and functions》 | 彭 华 StataCorp LLC |
《动态随机一般均衡模型的贝叶斯估计》 | 王群勇 南开大学 |
《合成控制法(SCM)的安慰剂检验、稳健性检验及可视化操作》 | 颜冠鹏 山东大学 |
《Stata中的标准误》 | 陈 强 山东大学 |
《Creating Custom Estimation Tables》 | 吕 丹 StataCorp LLC |
《模型平均化(Model Averaging)及其在经济金融领域的应用》 | 连玉君 中山大学 |
《使用网络方法研究经济学问题》 | 神秘嘉宾 |
《绿色全要素生产率与高质量发展评估》 | 张 宁 山东大学 |
第五届 Stata 中国用户大会暨“Stata 高级研究方法及新应用研讨会”于2021年8月19-20日盛大召开。聚焦学术前沿,对话学界大咖,多层次解读 Stata 17新应用。StataCorp LLC选派技术总工及开发者出席会议,与国内一线专家共襄盛举,共享 Stata 应用新思路。
演讲主题 | 演讲人 |
《Stata 17 自定义表格新应用》 | 彭 华 StataCorp LLC |
《Global VAR and Bayesian VAR in Stata》 | 王群勇 南开大学 |
《回归控制法及Stata应用》 | 颜冠鹏 山东大学 |
《分位数控制法及Stata应用》 | 陈 强 山东大学 |
《因果推断中的Stata应用》 | 王存同 中央财经大学 |
《Fitting Cox proportional hazards model for interval-censored event-time data in Stata》 | 杨 筱 StataCorp LLC |
《双边随机边界模型的Stata应用》 | 刘 畅 中山大学学 |
《优质稿件 | songbl命令的使用介绍:stata推文与电脑文档的检索》 | 杨景院 深圳大学 |
《一个Stata用户的若干思考》 | 连玉君 中山大学 |
《合成控制法的Stata应用和前沿研究》 | 陆嘉炫 芝加哥大学 |
《Mixed Regression with Macro and Micro Data in Stata》 | 王群勇 南开大学 |
2020年随着新冠疫情的蔓延,全球都投入到积极防控的大潮中,如何高效获取和处理COVID-19数据,必然成为本届会议的热点主题 。第四届“Stata中国用户大会”(China Stata Users' Conference) 将以“新应用+智交互”为主题,力邀国内外行业领袖及学术专家,共同开启全新主题单元。本次会议以线上直播的方式与大家见面,知识碰撞、经验交流、共享Stata应用新思路。
演讲主题 | 演讲人 |
《使用Stata获取与处理COVID-19数据》 | 彭 华 StataCorp LLC |
《Call Stata from Python》 | 徐 朝 StataCorp LLC |
《混频回归方法与Stata应用》 | 王群勇 南开大学 |
《基于Stata模拟的内生性来源及其应对》 | 陈传波 中国人民大学 |
《跨度回归、偏度回归与峰度回归及Stata应用》 | 陈 强 山东大学 |
《平滑转换模型与Stata应用》 | 王群勇 南开大学 |
《Causal Mediation》 | 金承刚 北京师范大学 |
《合成控制法安慰剂检验改进研究——基于标准化处理效应和非拒绝域的统计推断》 | 连玉君 中山大学 |
《Measuring technical efficiency and total factor productivity change with undesirable outputs in Stata》 | 王道平 上海财经大学 |
第三届 Stata 中国用户大会暨“机器学习与计量方法应用研讨会”于2019年8月20—21日在上海财经大学盛大召开并取得圆满成功。会议得到了国内外专家学者及众多用户代表的一致肯定,同时今年也是 Stata 16发布年,在会议上我们也希望能够更多的了解对新版本的认知,反映中国用户在应用软件过程中遇到的问题。通过广泛的国际交流,帮助 Stata 中国用户探索更深层次的理论和研究。
演讲主题 | 演讲人 |
《Introduction of latest reporting and language extension features in Stata》 | 彭 华 StataCorp LLC |
《Stata在公司投融资研究中的应用》 | 覃家琦 南开大学 |
《分位数回归:横截面、面板与工具变量法》 | 陈 强 山东大学 |
《Inference after lasso model selection》 | 刘 迪 StataCorp LLC |
《非参数计量经济方法(核回归,局部线性回归)》 | 王群勇 南开大学 |
《Fixed effect panel threshold model for unbalanced panel》 | 王群勇 南开大学 |
《Stata在外汇市场实证中的应用》 | 丁剑平 上海财经大学 |
《人工智能+ Stata》 | 陈堰平 微软中国 |
2018年“第二届 Stata 中国用户大会”(2018China Stata Users' Conference)是由北京友万信息科技有限公司(简称:友万科技)主办,顺德职业技术学院承办的聚焦 Stata 应用与技术落地的盛会。会议核心内容将围绕计量经济方法及应用方向展开广泛的国际学术交流,内容覆盖经济学、金融学、会计学、计算语言学、新闻学、政治学、历史学、医药卫生等微观和宏观计量分析的热门应用领域。今年大会的主题是“Econometric Analysis Method and Application” 秉承“开放协作、技术共享”的宗旨,面对面真诚聆听用户的声音。致力于为业界带来最新技术、行业应用案例展示与最佳实践单元。
会议主题:Econometric Analysis Method and Application
演讲主题 | 演讲人 |
《大数据、高维回归与Stata》 | 陈 强 山东大学 |
《Spatial autoregressive models using Stata》 | 刘 迪 StataCorp LLC |
《政策评估与因果推断:Stata应用概述》 | 王群勇 南开大学 |
《断点回归》 | 连玉君 中山大学 |
《回归分析集成输出解决方案》 | 李春涛 华中科技大学 |
《内含资本成本的计算》 | 顾 俊 深圳大学 |
《样本选择问题与处理》 | 王群勇 南开大学 |
《DSGE在Stata中的应用》 | 许文立 安徽大学 |
《Report generation with putdocx, putexcel, putpdf, and dyndoc》 | 彭 华 StataCorp LLC |
2017年“第一届 Stata 中国用户大会”(2017 China Stata Users' Conference)是由北京友万信息科技有限公司和爬虫俱乐部,联合StataCorp LLC发起第一届Stata中国用户大会。首届Stata用户会议的宗旨是“沟通和合作”,我们希望通过定期举办 Stata 用户会议,形成中国用户之间的技术、经验交流平台;建立和 Stata 原厂的沟通机制,反映中国用户遇到的问题,让未来的Stata版本更多地反映中国用户的愿望;建立学界与企业界之间的沟通和联系,让 Stata 用户有更多的机会服务于企业界;打造数据分析领域的高端智库,服务于我国的大数据事业。
会议主题:Retrieving data from website, Cloud oriented empirical analysis, Using Chinese in Stata
演讲主题 | 演讲人 |
《Stata 15 新版本发布及新功能研讨》 | 彭 华 StataCorp LP 软件工程总监 |
《内生性问题:方法及进展》 | 连玉君 中山大学 |
《putdocx与格式化输出》 | 李春涛 中南财经政法大学 |
《unicode与中文编码》 | 彭 华 StataCorp LP 软件工程总监 |
《Stata函数》 | 彭 华 StataCorp LP 软件工程总监 |
《Subinfile,网页源代码分析的神器》 | 薛 原 爬虫俱乐部 |
《Stata自动化报告与可重复研究》 | 陈堰平 雪晴数据网 |
《分词与情感分析》 | 薛 原 爬虫俱乐部 |
《文本分析在量化文史学研究中的应用—以<唐书>与<红楼梦>为例》 | 俞俊利 上海交通大学 |
《Stata、cURL交互与网络爬虫:以微博API为例》 | 彭文威 香港科技大学 |
《Stata数据清洗常用技巧》 | 彭文威 香港科技大学 |
《Econometric convergence test and club clustering using Stata》 | 杜克锐 山东大学 |
Stata Journal为每季发行的期刊,包含了统计、资料分析、教学方法、有效地使用Stata语言及书籍回顾…等相关内容。 使用者亦可选择购买有兴趣的单篇文章。
ISI Web of Knowledge 的最新期刊引用报告,将Stata期刊列为社会科学数学方法类别期刊中的第四位,仅次于结构方程模型, 计量经济学和经济学与统计学评论。
>>教学视频
为顺应大数据时代要求,自开展Stata培训以来,我司通过活动路演、创新讲座、在线课程、线下培训等系列活动已经在全国开展了包含Stata应用方法、统计分析、文本分析、数据分析、数据清洗、Stata、cURL交互与网络爬虫、内生性问题的方法及进展、Stata编程与Mata运算、Stata编程技术与爬虫、Stata自动化报告与可重复研究、计量经济方法及Stata应用等学习活动,有近千余名师生及业界爱好者参与了学习。通过此类学习活动极大的加强了大数据分析人才的理论和实践能力。推进了大数据人才培养,以及学术成果的转化,为大数据分析领域发展做出了贡献。我司希望通过每年一届的Stata中国用户大会,深度推进国内青年学者学习热情,提升高校学术交流氛围,整合学界及业内的大量资源,进一步提高数据分析能力和科学决策的水平。
高级现场班:"面板数据与因果推断" 研讨会
主讲:陈 强 |
高级现场班:《计量经济实证方法与论文写作研讨会》 一期
主讲:王群勇 |
高级现场班:《计量经济实证方法与论文写作研讨会》 二期
主讲:王群勇 |
高级现场班:"面板数据与因果推断" 研讨会
主讲:王群勇 |
高级现场班:"异质性稳健DID及Stata应用" 研讨会
主讲:陈强 |
高级现场班:"宏观计量经济模型" 研讨会
主讲:王群勇 |
高级课程:蒙特卡洛模拟、贝叶斯分析与Stata应用
主讲:王群勇 |
高级课程:宏观计量经济分析与Stata、Mathematica应用
主讲:王群勇 |
高级课程:贝叶斯分析与Stata应用
主讲:王群勇 |
中级课程:面板数据计量分析与Stata应用
主讲:王群勇 |
初级课程:Stata 17新功能介绍课程
主讲:StataCorp LLC |
初级课程:Stata 16软件功能介绍课程
主讲:StataCorp LLC |
初级课程:实证方法与Stata应用专题课程
主讲:王群勇 |
高级课程:“非线模型讲述非常故事”专题课程
主讲:王群勇 |
高级课程:“自然实验与因果推断”专题课程
主讲:王群勇 |
Stata 案例集
为强化示范引领效果,加快推动高校Stata科研实验室建设,由北京友万信息科技有限公司联合授权高校共同编制的《Stata案例集》正式发布。Stata案例集根据客户成功案例收集整理而成,介绍了应用Stata软件在科研工作和教学人材培养以及丰硕的科研成果方面取得的突出成效和变化,旨在帮助更多教学和科研单位根据其所属的专业领域,参考如何高效的部署Stata软件产品及解决方案。
案例一:首都经济贸易大学 国际经济管理学院
案例二:南开大学 经济学院
案例三:西南政法大学
经济学院
Stata实验室建设计划
北京友万信息科技有限公司自成为Stata中国授权经销商及合作伙伴以来,已为国内数十所高等院校及科研院所完成了Stata科研实验室采购计划。帮助其在教学科研、人材培养,论文发表、学科建设方面取得了突破性的进展。解决了在数据分析、数据处理、可视化、统计分析和自动报告等多方面的业务问题和个性化需求。对提高科研人员与教师的科学研究能力和教学水平起到了尤为重要的作用,诚邀有意向的单位加入我们,共同建立适合您的实验室定制建设方案。