深入浅出：线性回归 vs 逻辑回归——机器学习入门必知的两大算法

2026-02-07 13:13:35 0条评论 1次阅读 0人点赞

在我们探索机器学习的浩瀚海洋时，线性回归和逻辑回归往往是我们最先遇到的两座灯塔。虽然它们的名字里都有“回归”二字，听起来像是一家人，但在实际应用中，它们却有着截然不同的“性格”和使命。你是否也曾疑惑：为什么一个用来预测价格，另一个却用来判断“是”或“否”？

在这篇文章中，我们将深入剖析这两种核心算法。我们不仅要了解它们的区别，更要通过实际的代码示例，看看它们是如何在幕后工作的。无论你是刚入门的数据科学爱好者，还是希望巩固基础的开发者，这篇文章都将帮助你厘清这两个概念，并掌握它们在实际项目中的最佳实践。

1 我们首先要面对的问题：连续还是离散？
2 深入理解线性回归：寻找最优的“直线”
3 深入理解逻辑回归：概率的分类器
4 深度对比：线性回归 vs 逻辑回归
5 总结与下一步

我们首先要面对的问题：连续还是离散？

在开始编写代码之前，我们需要先解决一个根本性的问题：我们的目标变量到底是什么样的？

想象一下，如果你是一个房地产分析师，你可能会想知道“这套房子能卖多少钱？”这是一个具体的数字，比如 500 万或 350 万。这种连续的数值，就是线性回归的领地。

但如果你是银行的风控经理，你关心的可能是“这个人会违约吗？”答案只有“会”或“不会”。这种分类的输出（通常是 0 或 1），则是逻辑回归大显身手的地方。

!<a href="https://media.geeksforgeeks.org/wp-content/uploads/20251124111917578895/logisticregressionvslinearregression.webp">回归 vs 分类示意图

虽然这两种技术都致力于探索自变量（输入）和因变量（输出）之间的关系，但它们处理数据的方式、输出的数学意义以及评估模型优劣的指标都完全不同。让我们先从最经典的线性回归开始说起。

深入理解线性回归：寻找最优的“直线”

线性回归是我们工具箱中最基础、但也最强大的工具之一。它的核心思想非常直观：试图找到一条直线（或者在多维空间中的平面），能够最好地拟合我们的数据点。

它是如何工作的？

我们可以把线性回归模型想象成一个简单的数学公式：

y = wx + b

在这里，INLINECODE62d9fb3f 是权重（或者叫系数），INLINECODEe02e26bc 是我们的输入特征，而 INLINECODE18e7f6c4 是偏置项（截距）。我们的目标就是通过训练数据，找到最佳的 INLINECODE1edb2908 和 INLINECODE8e4d5222，使得预测值 INLINECODE6807c9bb 和真实值之间的差距最小。

让我们动手试试：预测房价

为了让你更直观地理解，我们来看一个简单的 Python 示例。在这个例子中，我们将根据房子的面积来预测它的价格。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# 1. 准备模拟数据：面积（平方米）和价格（万元）
# 我们假设房价大致随着面积线性增长
np.random.seed(42) # 设置随机种子，保证结果可复现
area = np.array([50, 60, 80, 100, 120, 150, 200]).reshape(-1, 1)
price = np.array([150, 200, 280, 360, 450, 600, 850]) + np.random.normal(0, 20, size=7) # 添加一点噪声

# 2. 划分训练集和测试集（虽然数据量小，但这是一个好习惯）
# 这里为了演示简单，我们直接用全部数据训练，但在实际中请务必划分
model = LinearRegression()

# 3. 训练模型
model.fit(area, price)

# 4. 查看模型学到的参数
print(f"权重 (斜率): {model.coef_[0]:.2f}")
print(f"偏置 (截距): {model.coef_[0]:.2f}")

# 5. 进行预测
test_area = np.array([[110]]) # 预测一个110平米的房子
predicted_price = model.predict(test_area)
print(f"预测 110 平米的房子价格约为: {predicted_price[0]:.2f} 万元")

# 可视化（如果环境支持）
# plt.scatter(area, price, color=‘blue‘)
# plt.plot(area, model.predict(area), color=‘red‘)
# plt.xlabel(‘面积 (平方米)‘)
# plt.ylabel(‘价格 (万元)‘)
# plt.show()

在这段代码中，模型“看”到了面积和价格之间的关系，并计算出了一条直线。当你输入一个新的面积时，它会沿着这条直线计算出对应的价格。

线性回归的典型应用场景

线性回归不仅仅用于预测房价，它在任何涉及连续数值估计的领域都有广泛的应用：

销售额预测：根据广告投入预测下季度的销售额。
天气分析：根据历史气温数据预测未来的温度变化。
交通流量：预测特定时间段内的车流量。
金融趋势：根据经济指标预测股票趋势或通货膨胀率。

它的优势在哪里？

我们之所以喜欢线性回归，首先是因为它极其简单。没有什么复杂的参数需要调整，它的训练速度非常快，预测也几乎是实时的。对于具有明显线性模式的问题，它的效果往往出奇的好。此外，模型中的“权重”系数具有很好的可解释性——我们可以直接说：“每增加一平米，房价增加 X 元。”

我们需要小心的局限性

不过，线性回归并不是万能的。你需要注意以下几点：

它假设数据是线性的：如果你的数据分布是一条曲线，强行用直线去拟合会导致严重的欠拟合。
对异常值敏感：数据中如果有一个极端的错误值，可能会把整条直线“拉”偏，导致模型效果变差。
多重共线性问题：当输入特征之间高度相关（例如“用英寸测量的身高”和“用厘米测量的身高”同时存在），模型的稳定性会下降。

深入理解逻辑回归：概率的分类器

当我们遇到分类问题（例如：是垃圾邮件还是正常邮件？是良性肿瘤还是恶性肿瘤？），线性回归就无能为力了。这时候，我们需要请出逻辑回归。

尽管名字里带“回归”，但逻辑回归实际上是一种分类算法。它的核心秘诀在于使用了一个特殊的函数——Sigmoid 函数（也叫 Logistic 函数）。

魔法函数：Sigmoid

Sigmoid 函数可以将任何实数值映射到 0 和 1 之间。这正是我们做概率预测所需要的。

P(y=1) = 1 / (1 + e^(-z))

其中 INLINECODEaba70bc6 就是线性回归的输出 (INLINECODE0e6493bd)。通过这个函数，我们将原本无限的直线“压缩”成了一个 S 形的曲线。

当 z 很大时，结果趋近于 1。
当 z 很小时，结果趋近于 0。
当 z = 0 时，结果正好是 0.5。

代码实战：预测学生考试是否通过

让我们通过一个实际的例子来看看逻辑回归是如何工作的。假设我们要根据学生的学习时长来预测他是否通过考试。

import numpy as np
from sklearn.linear_model import LogisticRegression
import matplotlib.pyplot as plt

# 1. 准备数据
# 特征: 学习时长 (小时)
# 标签: 0 (挂科), 1 (通过)
X = np.array([1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0]).reshape(-1, 1)
y = np.array([0, 0, 0, 0, 0, 1, 1, 1, 1, 1]) # 假设 5 小时是个分界线

# 2. 构建并训练模型
# solver=‘lbfgs‘ 是一种优化算法，适合小型数据集
clf = LogisticRegression(solver=‘lbfgs‘)
clf.fit(X, y)

# 3. 查看概率预测
# predict_proba 返回属于每个类别的概率，格式为 [类别0的概率, 类别1的概率]
student_study_time = np.array([[5.5]]) # 学习了 5.5 小时
prob_pass = clf.predict_proba(student_study_time)[0][1]

print(f"学习了 5.5 小时的学生，通过考试的概率是: {prob_pass:.2f}")
print(f"模型直接预测的类别是: {clf.predict(student_study_time)[0]}")

# 4. 理解阈值
# 逻辑回归默认的阈值是 0.5
print(f"
内部参数系数 (权重): {clf.coef_[0][0]:.2f}")
print(f"内部参数截距: {clf.intercept_[0]:.2f}")

在这个例子中，我们可以看到，逻辑回归不仅给出了“通过”或“不通过”的判断，还给出了具体的概率值（比如 0.65）。这在很多业务场景中非常有用，例如在银行风控中，我们可以设定：“只有违约概率超过 0.8 时才拒绝贷款”，这样比简单的“是/否”更具灵活性。

逻辑回归的常见应用场景

逻辑回归是处理二分类问题的首选基准模型：

垃圾邮件过滤：根据邮件内容判断是否为垃圾邮件。
疾病预测：根据体检指标判断是否患病。
客户流失预测：预测用户是否会在下个月取消订阅。
欺诈检测：判断一笔交易是否存在欺诈风险。

它的独特优势

除了代码实现简单、训练速度快之外，逻辑回归最大的优点是输出概率。这使得我们可以根据业务需求调整分类的阈值。此外，它还能通过系数权重的正负，告诉我们哪些特征对结果有正向影响，哪些有负向影响，具有很好的可解释性。

它的局限性

逻辑回归也有它的“阿喀琉斯之踵”：

非线性边界：如果数据不能被一条直线（或平面）分开，比如需要同心圆来分类的数据，逻辑回归的表现会很差。这时你需要引入多项式特征或使用核技巧，或者直接换用 SVM 或神经网络。
特征敏感：如果数据中有很多不相关的特征，或者特征之间存在复杂的交互作用，逻辑回归的准确率会下降。
数据不平衡：如果你的数据中 99% 都是负样本，模型可能会倾向于全预测为负样本。这时你需要使用采样技术（如过采样、欠采样）或调整类别权重来解决这个问题。

深度对比：线性回归 vs 逻辑回归

为了让你在实际项目中选择正确的工具，让我们从多个维度对这两者进行一次全面的 PK。

核心区别对比表

特性

线性回归

逻辑回归 :—

:—

:— 解决的问题类型

回归问题：预测具体的数值大小。

分类问题：预测数据的类别归属。 输出形式

连续数值：可以是任意实数，如 3.5, -100, 2500。

离散概率：通常在 [0, 1] 之间，表示属于某一类的概率。 核心数学原理

最小二乘法：试图最小化预测值与真实值之差的平方和。

最大似然估计：试图最大化观察到当前数据的概率。通常使用 Sigmoid 函数。 阈值的使用

不需要阈值：直接输出计算结果。

需要阈值：默认 0.5，将概率转换为类别（如 >0.5 为 1，否则为 0）。 评估指标

RMSE, MSE, R²：关注误差的大小。

准确率, 精确率, 召回率, F1分数：关注分类正确的比例。 因变量的假设

假设因变量遵循正态分布（高斯分布）。

假设因变量遵循二项分布（伯努利分布）。

代码层面的差异：损失函数

我们也可以通过 Python 代码来直观感受两者在计算“误差”时的不同。这里我们模拟手动计算损失的过程，不使用现成的库，以便你看清本质。

线性回归的损失（均方误差）：

import numpy as np

def linear_loss(y_true, y_pred):
    """
    计算均方误差 (MSE)
    惩罚方向：误差越大，惩罚呈指数级增长
    """
    n = len(y_true)
    squared_diff = (y_true - y_pred) ** 2
    return np.sum(squared_diff) / n

# 示例：真实价格是 100，预测价格是 110
y_t = np.array([100, 200, 300])
y_p = np.array([110, 210, 310])

print(f"线性回归损失: {linear_loss(y_t, y_p)}")

逻辑回归的损失（对数损失）：

“INLINECODE4900d1da`INLINECODE8a8e2effpredict_proba` 提供了这种透明度。

总结与下一步

今天，我们深入探索了机器学习中最基础也是最重要的两个算法：线性回归和逻辑回归。虽然它们在数学上有着紧密的联系，逻辑回归甚至可以被看作是线性回归的“兄弟”，但它们解决的问题截然不同。

我们用线性回归来预测连续的值，它通过最小二乘法寻找最佳拟合直线。
我们用逻辑回归来处理分类任务，它通过 Sigmoid 函数将线性结果转化为概率。

掌握这两者，你就已经迈出了理解复杂神经网络的第一步。在未来的学习中，你可以尝试以下步骤来提升技能：

实战演练：去 Kaggle 或 UCI 机器学习仓库下载“房价预测”和“泰坦尼克号生存预测”数据集，亲自跑一遍上面的代码。
探索正则化：了解 Ridge 和 Lasso 回归，看看如何解决线性回归中的过拟合问题。
评估指标深究：深入研究 ROC 曲线和 AUC 值，这是衡量逻辑回归性能的重要工具。

希望这篇文章能帮助你揭开这两个算法的神秘面纱。继续编码，继续探索！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客