深入理解线性回归中的正规方程：从数学推导到 Python 实现

2026-02-13 18:14:09 0条评论 1次阅读 0人点赞

在机器学习和数据科学的领域中，线性回归无疑是我们最先接触，也是最常使用的算法之一。无论是预测房价、分析股市趋势，还是简单的数据拟合，理解变量之间的关系至关重要。通常，我们会想到使用梯度下降（Gradient Descent）这类迭代算法来优化模型，逐步逼近最佳解。然而，你是否知道，对于某些特定类型的问题，存在一种能够“一步到位”的解析解法？

这就是我们今天要深入探讨的主角——正规方程。

在这篇文章中，我们将一起探索正规方程的奥秘。你将学到它背后的数学原理（别担心，我们会尽量通俗易懂），如何用 Python 从零实现它，以及最关键的——何时应该选择它而不是梯度下降。无论你是刚入门的数据科学爱好者，还是希望优化算法性能的资深开发者，这篇文章都将为你提供宝贵的实战见解。

为什么选择正规方程？

在我们跳进复杂的公式之前，先聊聊直觉。使用梯度下降时，我们需要选择学习率，可能需要归一化特征，还要进行成百上千次迭代。这就像是在漆黑的夜里摸索下山的路，小心翼翼地一步一步走。

而正规方程则不同。它不涉及迭代。通过强大的线性代数，它直接计算出最小化代价函数的最优参数。这就好比拥有了一张精确的地图，直接告诉你下山的捷径。这种“直接求解”的特性，使得它在处理中小规模数据集时极其高效。

正规方程是什么？

简单来说，正规方程是一个通过解析方法直接求解回归系数的数学公式。假设我们的假设函数为 $h_\theta(x) = \theta^T x$，我们的目标是最小化代价函数 $J(\theta)$（即均方误差）。通过微积分中求极值的原理，我们发现当梯度的零点时，代价函数最小。

正规方程的公式如下：

$$ \theta = (X^T X)^{-1} X^T y $$

在这个公式中：

$\theta$：我们要寻找的权重参数向量（包含截距项和斜率）。
$X$：特征矩阵，其中每一行代表一个训练样本，每一列代表一个特征（通常第一列全为1，作为截距项）。
$y$：目标值向量。

> 注意：这里的核心在于矩阵求逆 $(X^T X)^{-1}$。这也正是正规方程最大的瓶颈所在。

数学推导：方程背后

虽然我们可以直接套用公式，但作为开发者，理解“为什么”能让我们在面对问题时更加从容。让我们快速过一遍推导过程。

#### 1. 定义代价函数

在线性回归中，我们最小化的是误差的平方和（SSE）：

$$ J(\theta) = \sum{i=1}^{m} (h\theta(x^{(i)}) – y^{(i)})^2 $$

为了矩阵运算的方便，我们可以将其写成矩阵形式：

$$ J(\theta) = (X\theta – y)^T (X\theta – y) $$

> 小贴士：你可能会注意到，通常我们在梯度下降中会在代价函数前加一个 $\frac{1}{2m}$。但在正规方程的推导中，这些常数项不会影响最优解的位置，因此为了计算简洁，我们通常将其省略。

#### 2. 矩阵微积分与求导

我们的目标是找到使 $J(\theta)$ 最小的 $\theta$。根据微积分的基本原理，当函数对变量的导数为 0 时，函数取得极值。

我们需要计算 $J(\theta)$ 对向量 $\theta$ 的偏导数。这需要用到一些矩阵微积分的恒等式。让我们展开上面的代价函数：

$$ \begin{aligned} J(\theta) &= (X\theta – y)^T (X\theta – y) \\

&= (\theta^T X^T – y^T)(X\theta – y) \\

&= \theta^T X^T X\theta – \theta^T X^T y – y^T X\theta + y^T y \end{aligned} $$

注意 $\theta^T X^T y$ 是一个标量（结果是一个数），标量的转置等于它本身。且 $y^T X\theta$ 也是同样的标量。因此中间项可以合并。

现在，我们对 $\theta$ 求导。利用矩阵导数公式 $\frac{\partial \theta^T A \theta}{\partial \theta} = 2A\theta$ （当 A 是对称矩阵时）和 $\frac{\partial A\theta}{\partial \theta} = A$：

$$ \frac{\partial J(\theta)}{\partial \theta} = 2X^T X\theta – 2X^T y $$

#### 3. 设导数为零并求解

为了找到最小值，我们将导数设为零向量：

$$ 2X^T X\theta – 2X^T y = 0 $$

我们可以将两边除以 2，然后移项：

$$ X^T X\theta = X^T y $$

最后，假设 $(X^T X)$ 是可逆的，我们在两边同时左乘 $(X^T X)^{-1}$：

$$ \theta = (X^T X)^{-1} X^T y $$

这就是著名的正规方程！只要你能计算出 $X^T X$ 的逆，你就能直接得到最佳的模型参数。

Python 实战：从零开始实现

理论讲完了，现在让我们动手写点代码。我们将通过 Python 和 NumPy 来一步步实现这个算法。为了让你彻底理解，我们将分为几个部分：手动计算、封装成类、以及处理实际数据。

#### 示例 1：基础实现与验证

首先，我们创建一些简单的线性数据，然后用 NumPy 验证我们的公式。

import numpy as np
import matplotlib.pyplot as plt

def calculate_theta_normal_equation(X, y):
    """
    使用正规方程计算线性回归的参数 theta。
    参数:
    X -- 特征矩阵
    y -- 目标值向量
    返回:
    theta -- 最佳拟合参数
    """
    # 公式: theta = (X^T * X)^-1 * X^T * y
    try:
        # 1. 计算 X 的转置
        X_T = X.T
        
        # 2. 计算 X^T * X
        X_T_X = np.dot(X_T, X)
        
        # 3. 计算逆矩阵 (这是最关键的一步)
        # 注意：如果矩阵不可逆，这里会报错
        X_T_X_inv = np.linalg.inv(X_T_X)
        
        # 4. 计算 X^T * y
        X_T_y = np.dot(X_T, y)
        
        # 5. 计算最终的 theta
        theta = np.dot(X_T_X_inv, X_T_y)
        
        return theta
    except np.linalg.LinAlgError:
        print("错误：矩阵 不可逆，无法使用正规方程。")
        return None

# --- 生成测试数据 ---
# 假设真实关系是 y = 4 + 3x
np.random.seed(42) # 设置随机种子以保证结果可复现
X_train = 2 * np.random.rand(100, 1)
y_train = 4 + 3 * X_train + np.random.randn(100, 1)

# --- 添加截距项 (x0 = 1) ---
# 正规方程不自动包含截距，我们需要在 X 矩阵左侧加一列全为 1 的列
X_b = np.c_[np.ones((100, 1)), X_train] 

# --- 计算 Theta ---
theta_best = calculate_theta_normal_equation(X_b, y_train)

print(f"计算得到的参数 (截距, 斜率): {theta_best.ravel()}")
# 预期输出应该接近 [4, 3]

# --- 预测与可视化 ---
X_new = np.array([[0], [2]])
X_new_b = np.c_[np.ones((2, 1)), X_new]
y_predict = np.dot(X_new_b, theta_best)

plt.figure(figsize=(10, 6))
plt.scatter(X_train, y_train, color=‘blue‘, label=‘Training Data‘)
plt.plot(X_new, y_predict, color=‘red‘, linewidth=2, label=‘Normal Equation Prediction‘)
plt.title("Linear Regression via Normal Equation")
plt.xlabel("X")
plt.ylabel("y")
plt.legend()
plt.grid(True)
plt.show()

在上面的代码中，关键的一步是 np.c_[np.ones(...), X]。这是新手常犯的错误——忘记添加截距列。如果不加，你的模型就被强制通过原点 $(0,0)$，拟合效果会大打折扣。

#### 示例 2：处理多重共线性问题

正如我们之前提到的，正规方程依赖于矩阵求逆。如果特征之间存在多重共线性（例如，特征 A 是特征 B 的 2 倍），或者特征数量多于样本数量，$X^T X$ 就可能是不可逆的（奇异矩阵）。

让我们看看如何处理这种情况，以及如何使用伪逆来增强鲁棒性。

# 创建一个具有多重共线性的数据集
# 特征1 完全等于 特征2 * 2
X_bad = np.array([
    [1, 2, 4],
    [1, 3, 6],
    [1, 4, 8],
    [1, 5, 10]
])
y_bad = np.array([[10], [15], [20], [25]])

print("
--- 尝试对奇异矩阵求逆 ---")
# 这一行可能会因为 Singular Matrix 而报错
theta_bad = calculate_theta_normal_equation(X_bad, y_bad)

# 解决方案：使用 SVD (奇异值分解) 计算伪逆
# 即使矩阵不可逆，np.linalg.pinv 也能给出一个最小二乘解
def calculate_theta_pinv(X, y):
    """
    使用伪逆计算 theta，更鲁棒。
    原理：theta = X^+ * y
    """
    X_pinv = np.linalg.pinv(X) # NumPy 会自动处理奇异值
    theta = np.dot(X_pinv, y)
    return theta

print("
--- 使用伪逆 解决问题 ---")
theta_pinv = calculate_theta_pinv(X_bad, y_bad)
print(f"使用伪逆计算的参数 Theta:
{theta_pinv}")

在实际工程中，使用 INLINECODEecaeb2aa 往往比直接使用 INLINECODE613e488f 更安全。因为即使特征之间有高度的线性相关性，伪逆也能通过 SVD 分解给出一个数值上稳定的解。

#### 示例 3：对比 Scikit-Learn

在实际工作中，我们通常不会每次都手写公式，而是使用成熟的库。了解底层原理后，我们可以放心地使用 Scikit-Learn，并知道它在做什么。

from sklearn.linear_model import LinearRegression

# 准备数据
X_rl = np.random.rand(100, 1) * 10
y_rl = 2.5 * X_rl + 5 + np.random.randn(100, 1) * 2

# 使用 Scikit-Learn
# fit_intercept=True 意味着它会自动处理截距项（相当于我们手动加的那一列 1）
lin_reg = LinearRegression(fit_intercept=True)
lin_reg.fit(X_rl, y_rl)

print(f"
Scikit-Learn 截距: {lin_reg.intercept_}")
print(f"Scikit-Learn 系数: {lin_reg.coef_}")

# 使用我们的正规方程方法
X_rl_b = np.c_[np.ones((100, 1)), X_rl]
theta_manual = calculate_theta_normal_equation(X_rl_b, y_rl)

print(f"
手动计算 截距: {theta_manual[0]}")
print(f"手动计算 系数: {theta_manual[1]}")

# 你会发现两者的结果几乎完全一致。

正规方程 vs 梯度下降：终极对决

作为开发者，最难的问题往往不是“怎么写代码”，而是“选哪个工具”。让我们对比一下这两种方法。

特性

正规方程

梯度下降 :—

:—

:— 原理

解析解，直接计算

数值解，迭代逼近 超参数

不需要调参 (如学习率)

需要选择学习率 $\alpha$、迭代次数 特征缩放

不需要

必须进行特征归一化/标准化 适用场景

特征数量 ($n$) 较小 (< 10,000)

特征数量 ($n$) 非常大 计算复杂度

主要是求逆，约为 $O(n^3)$

约为 $O(k n^2)$ (k为迭代次数)

#### 什么时候该用正规方程？

想象一下，你正在处理一个包含 100 个样本和 50 个特征的数据集。使用正规方程，计算几乎是瞬间完成的，你不需要担心学习率太大导致发散，也不用做归一化处理。这种情况下，正规方程完胜。

#### 什么时候该避开它？

如果你的特征数量 $n$ 非常大，比如 $n = 100,000$ 或者更多。那么计算 $(X^T X)^{-1}$ 的计算量会变得极其巨大（因为是 $O(n^3)$ 级别）。这时候，计算机可能会算很久甚至内存溢出。而梯度下降虽然慢一点，但它在 $n$ 很大时依然能稳定工作。

常见陷阱与最佳实践

在多年的开发经验中，我总结了一些使用正规方程时的注意事项：

别忘了截距项：正如代码示例中展示的，一定要在矩阵 $X$ 前面加一列全为 1 的向量。这是新手最容易漏掉的一步。
小心不可逆矩阵：如果你的特征数量多于样本数量 ($n > m$)，或者特征之间存在严格的线性关系，正规方程会失效。

* 解决方法：删除冗余特征，或者使用正则化方法（如岭回归 Ridge Regression，它会在矩阵对角线上加一个小常数 $\lambda I$，强制矩阵可逆）。

数值稳定性：当特征值差异极其巨大时，虽然正规方程不要求归一化，但进行归一化有时能提高浮点数运算的精度，避免溢出。

总结

在这篇文章中，我们像剥洋葱一样，层层剖析了线性回归中的正规方程。我们看到了它如何利用矩阵代数的力量，直接给出问题的最优解，而无需繁琐的迭代过程。

让我们回顾一下核心要点：

公式：$\theta = (X^T X)^{-1} X^T y$ 是你的武器。
优势：简单、直接、无需超参数调优，适合中小规模数据。
劣势：计算复杂度高（$O(n^3)$），在特征极多时性能不如梯度下降，且需要处理可逆性问题。

现在，当你再次面对一个回归问题时，你可以自信地判断：是直接用公式秒杀，还是启用梯度下降慢慢打磨。掌握这两种工具，并根据实际情况灵活切换，正是成为一名优秀机器学习工程师的关键。

下一步，我建议你尝试在一个真实的数据集（如波士顿房价数据集）上同时运行这两种算法，直观地感受一下它们在速度和精度上的差异。祝你编码愉快！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客