相关与回归是我们统计分析工具箱中至关重要的工具,主要用于分析变量之间的关系。相关分析用于衡量两个变量之间线性关系的强度和方向,它向我们展示了当其中一个变量发生变化时,另一个变量是如何响应的。而回归分析则更进一步,它不仅衡量这种关系,还允许我们基于一个或多个自变量来预测因变量的值。
相关性
相关性量化了两个变量之间的关联强度以及方向。我们通常使用相关系数来测量它,其取值范围介于 -1(负一)和 +1(正一)之间。
- 正相关: 在这种情况下,如果一个变量的值上升,另一个变量的值也会随之上升。
- 负相关: 也就是说,当一个变量数值较高时,另一个变量数值较低,反之亦然。
- 无相关: 指两者之间不存在统计学上的显著相关性(注:原文举例较为宽泛,通常指数据分布呈现随机状态)。
相关系数的类型
一些常见的相关系数包括:
- 皮尔逊相关系数: 用于计算描述两个变量(均为区间或比率尺度)关系方向的直线形式。
- 斯皮尔曼等级相关: 用于确定已排序的两个变量之间的关联程度。
- 肯德尔系数: 衡量一个变量相对于另一个变量的排序程度。
回归分析是一种统计工具,我们可以用它来识别因变量与一个或多个自变量之间的关系。当我们在给定自变量的位置试图预测因变量的位置时,它非常有用。
回归的类型
常见的回归类型有:
- 简单线性回归: 观察两个变量,并通过建立线性方程来确定其中一个是否对另一个有贡献。
- 多元线性回归: 观察多个自变量对一个因变量的影响。
- 逻辑回归: 应用于因变量是定性(分类)数据的情况。
- 多项式回归: 通过 n 次多项式来规划因变量和自变量之间的联系。
相关与回归公式
与相关和回归相关的一些公式如下:
相关公式: 我们使用以下公式计算皮尔逊相关系数 :
> r = \frac{\sum (X – \bar{X})(Y – \bar{Y})}{\sqrt{\sum (X – \bar{X})^2 \sum (Y – \bar{Y})^2}}
简单线性回归公式: 回归线表示为:
> Y = a + bX
其中:
- Y 是因变量,
- X 是自变量,
- a 是截距,
- b 是斜率。
相关 vs 回归
相关和回归之间的一些常见区别:
回归
—
对因变量与一个或多个自变量之间的关系进行建模。
意味着从自变量到因变量的指向性关系。
回归系数(斜率和截距)描述了具体的关系。
提供一个方程(例如,在简单线性回归中 𝑌=𝑎+𝑏𝑋)。
用于基于自变量预测因变量的值。
常见方法:简单线性、多元线性、逻辑回归和多项式回归。
可以对线性和非线性关系进行建模(取决于回归类型)。
需要一个因变量和一个或多个自变量。## 相关与回归的求解问题
问题 1: 给定两个变量 X 和 Y,计算皮尔逊相关系数。
- X: [1, 2, 3, 4, 5]
- Y: [2, 4, 6, 8, 10]
解法:
> r = \frac{\sum (X – \bar{X})(Y – \bar{Y})}{\sqrt{\sum (X – \bar{X})^2 \sum (Y – \bar{Y})^2}}
>
> 计算 X 和 Y 的平均值:
>
> – X 的平均值 (\bar{X}) = 3
> – Y 的平均值 (\bar{Y}) = 6
>
> 计算皮尔逊相关系数:
>
> r = \frac{(1-3)(2-6) + (2-3)(4-6) + (3-3)(6-6) + (4-3)(8-6) + (5-3)(10-6)}{\sqrt{(1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2} \sqrt{(2-6)^2 + (4-6)^2 + (6-6)^2 + (8-6)^2 + (10-6)^2}}= \frac{24 + 12 + 0 + 12 + 24}{\sqrt{4 + 1 + 0 + 1 + 4} \sqrt{16 + 4 + 0 + 4 + 16}} = \frac{20}{\sqrt{10} \cdot \sqrt{40}} = \frac{20}{\sqrt{400}} = \frac{20}{20} = 1
>
> 因此,相关系数为 1,表示完全正相关。