利用 Statsmodels 探索置信区间与预测区间

在统计分析中,尤其是在线性回归领域,理解与预测相关的不确定性至关重要。置信区间和预测区间是量化这种不确定性的两个基本工具。置信区间提供了总体均值可能落入的范围,而预测区间则给出了新观测值可能落入的范围。本文将深入探讨如何使用 Python 的 Statsmodels 库从技术层面处理这些区间。

目录

  • 置信区间和预测区间简介
  • 使用 Statsmodels 可视化置信区间和预测区间
  • 实际应用中的考量与技巧

置信区间和预测区间简介

1. 置信区间

均值的置信区间提供了一系列数值,真实总体均值很可能位于这些数值之间。它是根据估计的均值和均值的标准误差构建的。区间的宽度由样本量、数据的变异性和所需的置信水平决定。

例如,95% 的置信区间意味着,如果我们选取 100 个不同的样本并计算每个样本的置信区间,我们预计大约有 95 个区间将包含真实的参数值。

2. 预测区间

另一方面,预测区间提供了一个范围,新的观测值很可能落入该范围内。它是根据估计的均值和预测的标准误差构建的。

预测区间总是比置信区间宽,因为除了均值的变异性外,它还考虑了单个观测值的变异性。

使用 Statsmodels 获取置信区间和预测区间

在深入计算之前,让我们先设置一下 Python 环境。我们需要 INLINECODE9e36e569、INLINECODE68e2b2b5、INLINECODE0690a8a4 和 INLINECODEd202a3de

Python


CODEBLOCK_2f2abc9f

构建线性回归模型

让我们使用合成数据创建一个简单的线性回归模型

Python


CODEBLOCK_da8f18c7

输出:

OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.290
Model:                            OLS   Adj. R-squared:                  0.283
Method:                 Least Squares   F-statistic:                     40.09
Date:                Wed, 07 Aug 2024   Prob (F-statistic):           7.34e-09
Time:                        10:24:55   Log-Likelihood:                -211.62
No. Observations:                 100   AIC:                             427.2
Df Residuals:                      98   BIC:                             432.5
Df Model:                           1                                          
Covariance Type:            nonrobust                                          
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          1.4169      0.403      3.518      0.001       0.618       2.216
x1             0.4405      0.070      6.332      0.000       0.302       0.579
==============================================================================
Omnibus:                        0.397   Durbin-Watson:                   1.841
Prob(Omnibus):                  0.820   Jarque-Bera (JB):                0.556
Skew:                          -0.036   Prob(JB):                        0.757
Kurtosis:                       2.642   Cond. No.                         11.7
==============================================================================

计算置信区间

要计算模型参数的置信区间,我们可以使用 INLINECODE15bf0461 提供的 INLINECODE0e7f3e19 方法。

Python


CODEBLOCK_1577508d

输出:

[[0.6177732  2.21611259]
 [0.3024626  0.57860665]]

对于拟合值,我们可以使用 INLINECODE24f44f55 方法,然后调用 INLINECODE587fac9a 来获取一个 DataF

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。如需转载,请注明文章出处豆丁博客和来源网址。https://shluqu.cn/43586.html
点赞
0.00 平均评分 (0% 分数) - 0