对数几率在逻辑回归中的作用

前置知识

对数几率 (Log Odds), 逻辑回归

> 注意: 建议大家先过一遍这些前置知识,以便更清晰地理解本文内容。

对数几率在逻辑回归中扮演着至关重要的角色,因为它将逻辑回归模型从基于概率的模型转化为基于似然的模型。虽然概率和对数几率各有其特性,但对数几率使得对输出结果的解释变得更加容易。因此,使用对数几率相比于直接使用概率会更有优势。

在深入探讨逻辑回归的细节之前,让我们先简要地了解一下什么是“几率”。

简单来说,几率就是成功的机会除以失败的机会。它以比率的形式表示。(如下面的公式所示)

\[\text{几率} = \frac{p}{1-p}\]

其中,
**p -> ** 成功的几率
**1-p ->** 失败的几率

逻辑回归与对数几率

现在,让我们深入探讨对数几率在逻辑回归中涉及的数学原理。在逻辑回归中,自变量对应于成功的几率由下式给出:

\[p = \frac{e^{\beta0 + \beta1 x}}{1+e^{\beta0 + \beta1 x}}\]

其中, 
**p ->** 成功的几率
**β0, β1 ->** 分配的权重 
**x ->** 自变量

因此,这种情况下的失败几率为:

\[1-p = 1- \frac{e^{(\beta0 + \beta1 x)}}{1+e^{(\beta0 + \beta1 x)}} = \frac{1}{1+e^{(\beta0 + \beta1 x)}}\]

所以,几率比 定义为:

\[\frac{p}{1-p} = \frac{\frac{e^{\beta0 + \beta1 x}}{1+e^{\beta0 + \beta1 x}}}{\frac{1}{1+e^{(\beta0 + \beta1 x)}}} = e^{(\beta0 + \beta1 x)}\]

正如我们在对数几率文章中所讨论的,为了在结果中获得对称性,我们要对几率比取对数。因此,对两边取对数得到:

\[\ln(\frac{p}{1-p}) = \beta0 + \beta1 x\]

这就是逻辑回归的一般方程。现在,在逻辑模型中,等号左边 (L.H.S) 包含了几率比的对数,它由等号右边 (R.H.S) 给出,后者涉及权重和自变量的线性组合。

图形直觉

i. 逻辑回归中基于概率输出的问题

让我们来看一个例子。假设我们构建了一个逻辑回归模型,根据血糖水平来确定一个人患糖尿病的概率。这个模型的图表看起来像这样:(见图 1)

!image图 1 : LR 模型图

问题在于,基于上述图表,模型的输出只能是二元的(即非黑即白)。为了解决这个问题,我们使用了逻辑回归中存在的对数几率概念。

ii. 解决方案:转换输出

为了解决上述问题,我们将基于概率的输出转换为基于对数几率的输出。(如下面的公式所示)

\[P(\text{糖尿病}) \rightarrow \log (\text{糖尿病的几率}) =\log_e(\frac{p}{1-p})\]

让我们假设 p 的随机值,看看 y 轴是如何转换的。

a. 边界值

当 \((p = 1)\) 时 \\

\(\loge(\frac{p}{1-p}) = \loge(1/0)\) \\

\(= \loge(1) – \loge(0)\) \\

\(= 0 – (-\infin)\) \\

\(= \infin\)

当 \((p = 0)\) 时 \\

\(\loge(\frac{p}{1-p}) = \loge(0/1)\) \\

\(= \loge(0) – \loge(1)\) \\

\(= (-\infin) – 0\) \\

\(= -\infin\)

所以,y 轴的定义域是:(-∞, ∞)

b. 中间值

当 \((p = 0.5)\) 时 \\

\(\loge(\frac{p}{1-p}) = \loge(0.5/0.5)\) \\

\(= \log_e(1)\)\

\(= 0\)

所以,当 p = 0.5 时 -> log (odds) = y = 0

c. 随机值

当 \((p = 0.75)\) 时 \\

\(\loge(\frac{p}{1-p}) = \loge(0.75/0.25)\) \\

\(= \log_e(3)\)\

\(= 1.09\)

当 \((p = 0.3)\) 时 \\

\(\loge(\frac{p}{1-p}) = \loge(0.3/0.7)\) \\

\(= \loge(3) – \loge(7)\)\

\

\(= -0.84\)

所以,当 p > 0.5 时 -> 我们得到的 log(odds) 值在范围 (0, ∞)

而当 p 我们得到的 log(odds) 值在范围 (-∞, 0)

如果我们把这些值映射到一个转换后的图表上,它看起来像这样:(见图 2)

!image图 2 : 转换后的 LR 图

基于斜率 和截距 的值,我们可以很容易地解释模型并获得非二元的确定性输出。这就是对数几率在逻辑回归中的强大之处。

对数几率通常被称为 Logit函数,当我们寻找非二元输出时,会在逻辑回归模型中使用它。这就是为什么逻辑回归既能作为回归模型,又能作为分类模型的原因。如果有任何疑问,请在下方留言。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。如需转载,请注明文章出处豆丁博客和来源网址。https://shluqu.cn/28026.html
点赞
0.00 平均评分 (0% 分数) - 0