我们使用相关系数来衡量两个变量之间关系的强弱。获取相关系数的公式有很多种,最流行的一种是皮尔逊相关系数(也称为皮尔逊 R),它常用于线性回归。皮尔逊相关系数用符号 "R" 表示。相关系数公式返回的值介于 1 和 -1 之间。具体如下:
- 1 表示强正相关
- -1 表示强负相关
- 结果为零表示完全不相关
目录
- 线性相关系数公式
- 线性相关系数的类型
- 样本问题 – 线性相关系数公式
- 线性相关系数公式的练习题
线性相关系数被称为皮尔逊 r 或皮尔逊相关系数。它反映了两个变量 x 和 y 之间线性关系的方向和强度。它返回一个介于 -1 和 +1 之间的值。其中 -1 表示强负相关,+1 表示强正相关。如果值为 0,则表示没有相关性。这也被称为零相关。
用于使用皮尔逊相关性解释相关性强度的“粗略估计”:
粗略估计
—
非常强的正相关
强正相关
中等正相关
弱正相关
没有或可忽略的关系
没有关系 [零相关]
没有或可忽略的关系
弱负相关
中等负相关
强负相关
非常强的负相关用于获取数据线性相关系数的公式如下:
> R = n(∑xy) – (∑x)(∑y) / √[n∑x²-(∑x)²][n∑y²-(∑y)²
线性相关系数的类型
线性相关系数由皮尔逊 r 反映。因此,r 的值可以介于 +1 和 -1 之间。
线性相关系数主要有以下三种类型:
- 正值表示正相关 (0 < r < 1)
- 负值表示负相关 (-1 < r < 1)
- 值为 0 表示不相关 (r=0)
正相关: 在正相关中,两个变量向同一方向变动。如果一个增加,另一个也增加;如果一个减少,另一个也减少。每当 r 指示正值时,它就显示出正关系。
负相关: 在负相关中,两个变量向不同方向变动。如果一个增加,另一个就减少;如果一个减少,另一个就增加。每当 r 指示负值时,它就显示出负关系。
不相关: 当变量之间没有统计关联时。我们称它们没有相关性。在这种情况下,它们的相关系数(也称为 r)为 0。
问题 1:计算以下数据的相关系数:
X = 5, 9,14, 16
和
Y = 6, 10, 16, 20
解决方案:
> 给定的变量是,
>
> X = 12,16 ,4, 8
>
> 和
>
> Y = 15, 20, 55, 10
>
> 为了找到这些变量的相关系数,首先我们要构建如下表,以获取公式所需的值,同时将列中的所有值相加,得到公式中使用的值
>
>
Y
X²
>
—
—
>
6
144
>
10
256
>
16
16
>
20
56
>
∑50
∑480
>
> ∑xy = 600
>
> ∑x = 40
>
> ∑y = 50
>
> ∑x² = 470
>
> ∑y² = 750
>
> n = 4
>
> 将所有值代入皮尔逊相关系数公式:
>
> R = n(∑xy) – (∑x)(∑y) / √[n∑x²-(∑x)²][n∑y²-(∑y)²
>
> R = 4(600) – (40)(50) / √[4(470)-(40)²][4(750)-(50)²]
>
> R = 400 / √[320][500]
>
> R = 400/400
>
> R =1
>
> 这表明数据的变量之间存在非常强的正相关关系。
问题 2:从下表中求相关系数的值:
年龄 X
—
42
23
22
47
50
60
解决方案:
> 根据给定的数据制作一个表格,并添加三列 XY、X² 和 Y²,同时将列中的所有值相加以得到 ∑xy, ∑x, ∑y, ∑x² 和 ∑y²,且 n =6。
>
>
年龄 X
XY
Y²>
—
—