R语言实战：深入解析回归决策树的构建与应用

2026-02-09 10:02:28 0条评论 4次阅读 0人点赞

你是否曾想过，如何根据汽车的特征来精准预测它的油耗？或者在面对复杂的非线性数据时，如何构建一个既直观又强大的预测模型？在这篇文章中，我们将深入探讨 R 语言中的回归决策树。与传统的线性回归相比，决策树能够捕捉数据中复杂的非线性关系，并且结果非常易于解释。我们将从算法的数学原理出发，通过实际代码演示，带你一步步掌握如何使用 rpart 包构建、可视化和优化回归树模型。

什么是回归决策树？

简单来说，决策树是一种通过不断提问来缩小预测范围的机器学习算法。你可能玩过“20个问题”的游戏：通过一系列“是/否”的判断，最终猜出对方心里想的东西。回归决策树也是类似的逻辑，只不过它的目标不是分类（如“是猫还是狗”），而是预测一个连续的数值（如“房价是多少”或“明天的温度是多少度”）。

当我们处理连续因变量（例如根据发动机功率预测汽车里程）时，我们会使用回归决策树。它的核心思想是将特征空间划分为多个简单的矩形区域，并在每个区域内预测一个平均值。

回归决策树算法的工作原理

理解背后的原理能帮助你更好地调整模型。回归决策树通过递归地根据特征值将数据集划分为多个子集来工作。其核心目标是最小化每个子集内目标变量（因变量）的方差。让我们深入剖析这一过程。

1. 数据分割与方差最小化

在每个节点，决策树面临的选择是：哪一个特征 $Xj$ 和哪一个分割点 $sj$ 能让数据分得最好？这里的“最好”指的是生成的子集内部数据最一致（即方差最小）。

对于给定的特征 $Xj$ 和分割点 $sj$，我们将数据分为左侧（$Xj < sj$）和右侧（$Xj \geq sj$）。子集内目标变量 $Y$ 的方差计算公式如下：

$$ \text{Var}(Y|Xj, sj) = \frac{1}{N} \sum{i=1}^{N} (yi – \bar{y})^2 $$

其中：

$y_i$ 是第 $i^{th}$ 个样本的实际目标值，
$\bar{y}$ 是该子集中 $y$ 值的均值，
$N$ 是子集中的样本数量。

算法会遍历所有可能的特征和所有可能的分割点，寻找使两个子节点内的总方差最小的组合：

$$ \text{Total Variance} = \frac{NL}{N} \text{Var}(Y

Xj, sj)L + \frac{NR}{N} \text{Var}(Y

Xj, sj)R $$

其中：

$NL$ 和 $NR$ 分别是左右子节点中的样本数量，
$\text{Var}(Y Xj, sj)L$ 和 $\text{Var}(Y
Xj, sj)R$ 分别是左右子节点中的方差。

这个过程会不断重复，直到满足停止条件（如节点样本数太少或方差无法再显著降低）。

2. 叶节点预测机制

当数据被充分分割后，树就会停止生长。此时，每个叶节点都包含一部分数据。对于落入该叶节点的任何新数据，模型的预测值就是该子集目标变量 $Y$ 的均值：

$$ \hat{y} = \frac{1}{N{\text{leaf}}} \sum{i=1}^{N{\text{leaf}}} yi $$

这就是为什么回归决策树的预测结果通常呈现为阶梯状——它是在一段区间内取常数平均值。

3. 进行预测

当你有一个新的数据点 $\mathbf{x}$ 需要预测时，决策树会从根节点开始，根据节点的分割规则一路向下，直到到达相应的叶节点。一旦进入叶节点，预测值就是该节点内历史数据的均值：

$$ \hat{y}{\text{new}} = \frac{1}{N{\text{leaf}}} \sum{i=1}^{N{\text{leaf}}} y_i $$

R语言实战：构建回归决策树

理论讲完了，让我们动手实践。我们将使用经典的 mtcars 数据集，目标是根据汽车的排量、马力和气缸数来预测其 MPG（每加仑英里数）。

步骤 1：准备工作

首先，我们需要安装并加载 INLINECODE7da0b110 包，这是 R 中处理决策树最强大的工具之一。同时，为了让我们更直观地看到复杂的树结构，我建议你也加载 INLINECODE84420cdb 包。

# 安装必要的包（如果尚未安装）
if (!require("rpart")) install.packages("rpart")
if (!require("rpart.plot")) install.packages("rpart.plot")

# 加载库
library(rpart)
library(rpart.plot)

步骤 2：数据探索

让我们加载 INLINECODE89378e81 数据集。这是一个内置数据集，非常方便进行初步练习。我们先用 INLINECODE581cdb21 函数一睹数据的风采。

# 加载数据
data(mtcars)

# 查看前几行数据
head(mtcars)

输出预览：

你可以看到数据包含了 INLINECODEb65b2bf7（油耗）、INLINECODEb0e78b53（气缸）、INLINECODE3232db79（排量）、INLINECODE78a7fb9f（马力）等列。我们的任务就是建立它们之间的联系。

步骤 3：拟合模型

现在，让我们构建回归树。这里有一个关键点需要注意：在 INLINECODE3fac868c 函数中，我们必须通过 INLINECODE23c34f1e 参数明确告诉 R 我们是在做回归还是分类。

method = "anova"：这告诉函数我们要处理连续变量，使用方差分析（即最小化方差）来进行分裂。如果你在做分类问题，这里应该是 "class"。

# 设置随机种子以保证结果可复现
set.seed(123)

# 使用 rpart 创建回归决策树
# 公式：mpg ~ disp + hp + cyl，表示 mpg 是因变量，其他是自变量
fit <- rpart(mpg ~ disp + hp + cyl, 
             method = "anova",  # 指定为回归任务
             data = mtcars)

步骤 4：可视化模型

一图胜千言。我们先将决策树保存为图片，然后打印出来查看。这种方式非常适合用于报告或演示。

# 开启图形设备，将绘图保存为 PNG
png(file = "decision_tree_mpg.png", width = 600, height = 600)

# 绘制基础树结构
plot(fit, uniform = TRUE, main = "回归决策树：预测汽车 MPG")
# 添加文本标签，显示分割点和观测值数量
text(fit, use.n = TRUE, cex = 0.8)

# 关闭图形设备
dev.off()

更专业的可视化：

虽然上面的代码能画出基本的树，但我强烈推荐使用 rpart.plot() 函数，它能生成更美观、信息量更大的图表。

# 使用 rpart.plot 绘制更直观的图
rpart.plot(fit, 
           main = "MPG 回归决策树可视化",
           type = 4, 
           extra = 101) # extra=101 会显示预测值和样本百分比

步骤 5：解读模型输出

除了看图，我们还可以直接打印模型对象，查看树的具体结构和数值。这能帮助我们理解每个节点的分割阈值。

# 打印决策树的文本摘要
print(fit)

输出解读示例：

`INLINECODE06c5c3ad`INLINECODE6ff6c3b6method = "anova"INLINECODE9e08009crpartINLINECODE380acf00rpartINLINECODEa2ddfedbairqualityINLINECODEb95967e5rpart.controlINLINECODE917ced23minsplitINLINECODEe90805e9maxdepth），观察树结构的变化。 - 将单棵决策树的预测结果与线性回归模型（lm`）进行比较，看看在你的数据集上，哪一个表现更好？

希望这篇文章能帮助你在数据科学的道路上更进一步！如果你在练习中遇到了问题，不妨回头看看代码中的注释，或者尝试打印出中间结果来调试。祝你编码愉快！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客