相关系数用于衡量两个变量之间关联的强度。举个例子,如果我们想知道父亲和儿子的身高之间是否存在某种联系,我们可以通过计算相关系数来回答这个问题。想要了解更多关于相关性的基础知识,请参阅相关资料。
相关性分析方法: 主要有两种类型的相关性:
- 参数相关性: 静态 皮尔逊相关系数(r):它用于测量两个变量(x和y)之间的线性依赖关系,因为其依赖于数据的分布,所以被称为参数相关性检验。它通常用于数值数据。
- 非参数相关性: 肯德尔系数 和 斯皮尔曼系数(rho): 它们是基于秩的相关系数,被称为非参数相关性检验。它通常用于分类数据。
什么是斯皮尔曼相关系数
斯皮尔曼等级相关系数是一种统计量,用于衡量两个连续变量之间单调关系的强度和方向。因此,这些属性会被进行排序或按照偏好顺序排列。它用符号 "rho" (ρ) 表示,取值范围在 -1 到 +1 之间。rho 的正值表示两个变量之间存在正相关关系,而负值则表示负相关关系。如果 rho 值为 0,则表示两个变量之间没有关联。
#### 斯皮尔曼相关系数公式
$$\rho = 1 – \frac{6\sum d_{i}^{2}}{n(n^2-1)}$$
其中,
> $\rho$ = 斯皮尔曼相关系数
>
> rank = 变量值在数据集中相对于其他值的位置或顺序
>
> $d_i$ = 数据中每一项的两个变量值被赋予的等级之差
>
> $n$ = 观测值的总数
分步计算斯皮尔曼等级相关系数
将原始数据转换为等级
创建等级涉及为数据集中的值分配一个数字顺序,其中最小的值获得等级 1,第二小的获得等级 2,依此类推。
数据:
X1
—
7
6
4
5
8
7
10
3
9
2
为 X1 创建等级:
- 将 X1 的值按升序排列:
2, 3, 4, 5, 6, 7, 7, 8, 9, 10。 - 根据排序后的顺序分配等级:
1, 2, 3, 4, 5, 6.5, 6.5, 8, 9, 10。由于有两个相同的值(6和7),我们分配它们的平均等级(6.5)。
> 注意:如果数值相同(结),则取它们等级的平均值。
对 Y1 做同样的处理,我们得到:
Rank X1
—
6.5
5
3
4
8
6.5
10
2
9
1
斯皮尔曼相关性计算步骤:
在斯皮尔曼等级相关分析中,过程包括将原始数据转换为等级。这样做是为了在不依赖于数据点的具体数值的情况下,评估两个变量之间的单调关系。
让我们以变量 X1 和 Y1 中的 10 个不同数据点为例。然后按照以下步骤操作:
- 将数值按从小到大的升序排列。
- 根据数值在排序中的位置分配等级。最小值的等级为 1,第二小的等级为 2,依此类推。
- 然后找出数据中每一项的两个变量值被赋予的等级之差的平方。
1
3
5
7
9
—
—
—
—
—
7
4
8
10
9
5
5
10
9
8
6.5
3
8
10
9
4.5
4.5
10
9
8
4
2.25
4
1
1
计算 $d^2$
一旦你获得了等级,就可以计算等级之间的差值。在这个例子中,第一个数据点的等级差是 2,我们将其平方;同样地,我们取第二个数据点在 Xi 和 Yi 之间的等级差 2,将其平方得到 4。就像这样,我们算出等级差,通过平方得到我们最终称为 $d^2$(d的平方)的值。我们将所有的值求和,然后利用这个值在上述公式中计算斯皮尔曼系数。
通过代入 $d^2$ 和 $n$ 的值:
$$
\begin{aligned}
\rho &= 1 – \frac{6\sum d_{i}^{2}}{n(n^2-1)}
\\&=1-\frac{6 \times 20.5}{10(10^2-1)}
\end{aligned}
$$