前置知识
> 注意: 建议大家先过一遍这些前置知识,以便更清晰地理解本文内容。
对数几率在逻辑回归中扮演着至关重要的角色,因为它将逻辑回归模型从基于概率的模型转化为基于似然的模型。虽然概率和对数几率各有其特性,但对数几率使得对输出结果的解释变得更加容易。因此,使用对数几率相比于直接使用概率会更有优势。
在深入探讨逻辑回归的细节之前,让我们先简要地了解一下什么是“几率”。
简单来说,几率就是成功的机会除以失败的机会。它以比率的形式表示。(如下面的公式所示)
\[\text{几率} = \frac{p}{1-p}\]
其中,
**p -> ** 成功的几率
**1-p ->** 失败的几率
逻辑回归与对数几率
现在,让我们深入探讨对数几率在逻辑回归中涉及的数学原理。在逻辑回归中,自变量对应于成功的几率由下式给出:
\[p = \frac{e^{\beta0 + \beta1 x}}{1+e^{\beta0 + \beta1 x}}\]
其中,
**p ->** 成功的几率
**β0, β1 ->** 分配的权重
**x ->** 自变量
因此,这种情况下的失败几率为:
\[1-p = 1- \frac{e^{(\beta0 + \beta1 x)}}{1+e^{(\beta0 + \beta1 x)}} = \frac{1}{1+e^{(\beta0 + \beta1 x)}}\]
所以,几率比 定义为:
\[\frac{p}{1-p} = \frac{\frac{e^{\beta0 + \beta1 x}}{1+e^{\beta0 + \beta1 x}}}{\frac{1}{1+e^{(\beta0 + \beta1 x)}}} = e^{(\beta0 + \beta1 x)}\]
正如我们在对数几率文章中所讨论的,为了在结果中获得对称性,我们要对几率比取对数。因此,对两边取对数得到:
\[\ln(\frac{p}{1-p}) = \beta0 + \beta1 x\]
这就是逻辑回归的一般方程。现在,在逻辑模型中,等号左边 (L.H.S) 包含了几率比的对数,它由等号右边 (R.H.S) 给出,后者涉及权重和自变量的线性组合。
图形直觉
i. 逻辑回归中基于概率输出的问题
让我们来看一个例子。假设我们构建了一个逻辑回归模型,根据血糖水平来确定一个人患糖尿病的概率。这个模型的图表看起来像这样:(见图 1)
!image图 1 : LR 模型图
问题在于,基于上述图表,模型的输出只能是二元的(即非黑即白)。为了解决这个问题,我们使用了逻辑回归中存在的对数几率概念。
ii. 解决方案:转换输出
为了解决上述问题,我们将基于概率的输出转换为基于对数几率的输出。(如下面的公式所示)
\[P(\text{糖尿病}) \rightarrow \log (\text{糖尿病的几率}) =\log_e(\frac{p}{1-p})\]
让我们假设 p 的随机值,看看 y 轴是如何转换的。
a. 边界值
当 \((p = 1)\) 时 \\
\(\loge(\frac{p}{1-p}) = \loge(1/0)\) \\
\(= \loge(1) – \loge(0)\) \\
\(= 0 – (-\infin)\) \\
\(= \infin\)
当 \((p = 0)\) 时 \\
\(\loge(\frac{p}{1-p}) = \loge(0/1)\) \\
\(= \loge(0) – \loge(1)\) \\
\(= (-\infin) – 0\) \\
\(= -\infin\)
所以,y 轴的定义域是:(-∞, ∞)
b. 中间值
当 \((p = 0.5)\) 时 \\
\(\loge(\frac{p}{1-p}) = \loge(0.5/0.5)\) \\
\(= \log_e(1)\)\
\(= 0\)
所以,当 p = 0.5 时 -> log (odds) = y = 0。
c. 随机值
当 \((p = 0.75)\) 时 \\
\(\loge(\frac{p}{1-p}) = \loge(0.75/0.25)\) \\
\(= \log_e(3)\)\
\(= 1.09\)
当 \((p = 0.3)\) 时 \\
\(\loge(\frac{p}{1-p}) = \loge(0.3/0.7)\) \\
\(= \loge(3) – \loge(7)\)\
\
\(= -0.84\)
所以,当 p > 0.5 时 -> 我们得到的 log(odds) 值在范围 (0, ∞) 内
而当 p 我们得到的 log(odds) 值在范围 (-∞, 0) 内
如果我们把这些值映射到一个转换后的图表上,它看起来像这样:(见图 2)
!image图 2 : 转换后的 LR 图
基于斜率 和截距 的值,我们可以很容易地解释模型并获得非二元的确定性输出。这就是对数几率在逻辑回归中的强大之处。
对数几率通常被称为 Logit函数,当我们寻找非二元输出时,会在逻辑回归模型中使用它。这就是为什么逻辑回归既能作为回归模型,又能作为分类模型的原因。如果有任何疑问,请在下方留言。