深入探索波士顿房价数据集在 Sklearn 中的应用与实战指南

2026-02-15 18:11:18 0条评论 2次阅读 0人点赞

在机器学习的入门与进阶之路上，处理真实世界的数据集是我们必须掌握的核心技能。在本文中，我们将深入探讨数据科学界最著名的基准数据集之一——波士顿房价数据集。虽然 Sklearn（Scikit-learn）为我们提供了便捷的接口来加载这个数据集，但在实际的数据分析和建模过程中，仅仅会调用接口是远远不够的。我们不仅要了解如何通过代码获取数据，还要深入理解每一个特征背后的统计学含义，以及如何对数据进行预处理、可视化和建模。

> ⚠️ 重要提示：关于波士顿数据集的弃用说明

> 在开始之前，我们需要特别说明一点。由于该数据集包含了一个可能涉及种族偏见（假设“种族对房价有负面影响”）的特征，从 scikit-learn 1.2 版本开始，INLINECODE1187736a 函数已被正式弃用并移除。作为负责任的机器学习工程师，我们强烈建议你在生产环境中使用 INLINECODEb155f161（加州房价数据集）作为替代。

> 不过，为了教学目的和对经典模型的理解，许多教程（包括本文）仍会以其为例进行讲解。如果你使用的是较新版本的 Sklearn，直接运行代码可能会报错，本文会提供替代的加载方案。

1 理解波士顿房价数据集
2 在 Sklearn 中加载波士顿数据集：实战代码
3 常见错误与解决方案
4 性能优化建议
5 总结与后续步骤

理解波士顿房价数据集

在动手写代码之前，让我们先深入了解一下这个数据集的背景。波士顿房价数据集来源于 1970 年代波士顿标准都市统计区（SMSA）的 census 数据。它包含了许多影响房价的变量，非常适合用来练习回归分析任务。我们的目标是根据这些预测变量，预测波士顿地区房屋的中位数值。

数据集的基本统计信息

作为一个经典的 toy dataset（玩具数据集），它的规模非常适合快速验证算法：

样本总数: 506 个（通常分为训练集和测试集）
特征维度: 13 个（每一个特征代表一种影响房价的因素）
特征类型: 实数，并且都是正值
目标值范围: 5.0 到 50.0（单位通常是千美元）

特征详解：数据的“身份证”

要让模型发挥作用，我们必须“读懂”每一列数据的含义。这不仅仅是查字典，更是培养数据敏感度的过程。以下是该数据集中 13 个特征的详细解读：

CRIM (城镇人均犯罪率): 这是一个反映安全性的指标。数值越高，该地区的犯罪率越高。通常我们认为，安全性差的地区房价会受负面影响。
ZN (占地面积超过 25,000 平方英尺的住宅用地比例): 这反映了该区域的住宅规划密度。数值越大，意味着大面积独栋房屋越多，通常暗示着较为富裕的社区。
INDUS (非零售商业用地比例): 这一指标衡量了区域内的工业或商业属性。如果该值过高，可能意味着环境嘈杂，不适合纯居住，可能会拉低房价。
CHAS (查尔斯河虚拟变量): 这是一个 0 或 1 的分类变量。如果房屋位于查尔斯河边，值为 1，否则为 0。我们常说“水景房”，这个特征量化了景观资源的稀缺性，通常对房价有正向影响。
NOX (一氧化氮浓度): 这是一个环境指标，数值越高代表工业污染越严重（ppm）。显然，空气质量是影响居住舒适度和健康的关键因素。
RM (每栋住宅的平均房间数): 这直接衡量了房屋的大小。房间越多，居住空间越宽敞，房价通常越高。
AGE (1940 年前建造的自住单元比例): 这反映了该区域房屋的老化程度。老房子可能设施陈旧，但也可能具有历史韵味，具体如何影响房价取决于模型的学习结果。
DIS (到五个波士顿就业中心的加权距离): 这一特征衡量了通勤的便利性。离就业中心越近（数值越小），通常越受欢迎，但这也可能伴随着城市的喧嚣。
RAD (到达径向高速公路的可达性指数): 衡量交通便捷程度。数值越高，说明交通越发达，但高速路附近的房屋也可能面临噪音问题。
TAX (每 10,000 美元的全额财产税率): 高税率可能意味着公共服务较好，但也直接增加了持有成本，对房价的影响比较复杂。
PTRATIO (按城镇计算的师生比): 这是衡量教育资源的重要指标。数值越低（老师相对学生越多），通常意味着教育质量越高，对家庭购房者极具吸引力。
B (1000(Bk – 0.63)^2): 这是一个计算出的特征，涉及城镇黑人比例。这也是导致该数据集被弃用的核心原因之一，因为它暗示了历史上的种族隔离对房价的非线性影响。
LSTAT (地位较低人口的百分比): 这是一个社会经济指标，反映了该区域的贫困程度。通常该值越高，购买力越低，房价越低。

在 Sklearn 中加载波士顿数据集：实战代码

1. 标准加载方法（兼容性处理）

在旧版本的 Sklearn 中，我们可以直接使用 load_boston()。但为了应对新版本带来的挑战，我们可以采取一种更健壮的写法：使用 Pandas 直接读取公开的 CSV 源文件。这不仅解决了版本兼容问题，也是处理外部数据时的通用做法。

让我们来看看如何获取数据并将其转换为易于分析的 DataFrame 格式：

import pandas as pd
import numpy as np

# 为了兼容性，我们直接从源 URL 读取数据
data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)

# 数据在原始文件中是隔行存储的，需要重新组合
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]

# 特征名称
feature_names = [
    "CRIM", "ZN", "INDUS", "CHAS", "NOX", "RM", "AGE", 
    "DIS", "RAD", "TAX", "PTRATIO", "B", "LSTAT"
]

# 创建 DataFrame，这是数据分析中最常用的数据结构
boston_df = pd.DataFrame(data, columns=feature_names)
boston_df[‘MEDV‘] = target # 将目标值（房价）加入 DataFrame

# 查看前 5 条数据
print("数据集预览：")
print(boston_df.head())

# 查看基本统计信息
columns_of_interest = [‘CRIM‘, ‘RM‘, ‘AGE‘, ‘MEDV‘]
print("
关键特征的基本统计信息（均值、标准差等）：")
print(boston_df[columns_of_interest].describe())

代码解析：

我们使用 pd.read_csv 直接从 CMU 的统计学数据库获取数据，这种方法不依赖于 Sklearn 版本。
原始数据格式比较特殊（每两行代表一条完整的样本记录），所以使用了 NumPy 的 hstack 进行水平堆叠处理。这是数据清洗中常见的技巧。
Pandas DataFrame 是我们进行数据探索的首选工具，它提供了类似 Excel 的表格视图。

2. 数据探索与可视化：直观感受数据

光看数字很难发现规律。让我们通过可视化工具来探索特征之间的关系。我们将使用 Matplotlib 和 Seaborn 库来绘制图表。

import matplotlib.pyplot as plt
import seaborn as sns

# 设置绘图风格
sns.set(style="whitegrid")

# 让我们看看哪些特征与房价（MEDV）的相关性最强
# 计算相关系数矩阵
corr_matrix = boston_df.corr().round(2)

# 绘制热力图
plt.figure(figsize=(10, 8))
sns.heatmap(data=corr_matrix, annot=True, cmap=‘coolwarm‘)
plt.title("波士顿数据集特征相关性热力图")
plt.show()

# 重点观察 "房间数 (RM)" 与 "房价 (MEDV)" 的关系
plt.figure(figsize=(8, 6))
plt.scatter(boston_df[‘RM‘], boston_df[‘MEDV‘], alpha=0.5)
plt.xlabel(‘平均房间数
plt.ylabel(‘房屋价格 (MEDV) ($1000s)‘)
plt.title(‘平均房间数与房价的关系散点图‘)
plt.show()

实战见解：

当你运行上述热力图代码时，你会发现在最后一列（或行）中，INLINECODE86c81863（房间数）与 INLINECODE04d9dbdf（房价）呈现明显的正相关（接近 0.7），而 LSTAT（低收入比例）与房价呈现明显的负相关（接近 -0.74）。这非常符合我们的直觉：房子越大越贵，穷人越多房价越低。
这种相关性分析是特征工程的基础。如果你在做模型时发现某个特征与目标值的相关性极低，可能就可以考虑将其剔除。

3. 构建回归模型：从数据到预测

理解了数据之后，让我们动手做一个简单的线性回归模型。我们将使用最经典的“最小二乘法”来拟合数据。

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# 步骤 1: 准备数据
# 我们选取 "RM" 作为特征（简单线性回归），也可以使用所有特征（多元线性回归）
X = boston_df[[‘RM‘]]  # 这里我们只用一个特征演示，方便理解
y = boston_df[‘MEDV‘]

# 步骤 2: 划分训练集和测试集
# 这一步至关重要，用来验证模型的泛化能力
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# 步骤 3: 初始化并训练模型
model = LinearRegression()
model.fit(X_train, y_train)

# 步骤 4: 模型预测
y_pred = model.predict(X_test)

# 步骤 5: 评估模型表现
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"模型的系数 (斜率): {model.coef_[0]:.2f}")
print(f"模型的截距: {model.intercept_:.2f}")
print(f"均方误差 (MSE): {mse:.2f}")
print(f"R平方得分 (R2 Score): {r2:.2f}")

# 步骤 6: 可视化预测结果
plt.figure(figsize=(8, 6))
plt.scatter(X_test, y_test, color=‘blue‘, label=‘真实数据‘, alpha=0.6)
plt.plot(X_test, y_pred, color=‘red‘, linewidth=2, label=‘模型预测线‘)
plt.xlabel(‘平均房间数
plt.ylabel(‘房屋价格
plt.legend()
plt.title(‘基于房间数的房价预测模型‘)
plt.show()

深入讲解代码工作原理：

INLINECODE96d6e4fd: 我们将数据打乱并按 8:2 分开。INLINECODE0936ab35 确保了你每次运行代码得到的结果一致，这对于复现实验非常重要。
model.fit: 这是 Sklearn 的核心方法。模型通过最小化“真实值”与“预测值”之间的差距（MSE），找到了一条最佳的直线。
R2 Score: 这是一个 0 到 1 之间的分数。1 表示完美预测，0 表示和瞎猜一样。在这个单特征模型中，通常能得到 0.5 左右的分数，说明“房间数”解释了大约 50% 的房价变化。

常见错误与解决方案

在使用这个数据集或类似项目时，你可能会遇到以下几个“坑”:

版本兼容性报错:

– 错误: ImportError: cannot import name ‘load_boston‘ from ‘sklearn.datasets‘

– 解决: 不要纠结于旧函数，使用上述的 Pandas 读取 CSV 的方法，或者直接升级你的代码去使用 fetch_california_housing。

数据尺度不统一:

– 问题: INLINECODE5f61d0be 的数值范围是 [0, 88]，而 INLINECODE40275db8 只有 0 和 1。这会导致某些算法（如 SVM 或神经网络）对数值大的特征过于敏感。

– 解决: 使用 sklearn.preprocessing.StandardScaler 对数据进行标准化处理（均值为 0，方差为 1），这是提升模型性能的关键一步。

多重共线性:

– 问题: 某些特征之间高度相关（比如 NOX 和 INDUS），这会让线性回归模型的系数变得不稳定，难以解释特征的重要性。

– 解决: 使用岭回归或 Lasso 回归代替普通线性回归，它们在处理这种问题时表现更稳健。

性能优化建议

如果你想让你的模型表现更好，我们可以尝试以下策略：

使用更多特征: 我们上面的例子只用了一个 RM。实际上，你可以尝试使用所有 13 个特征，这会让模型的 R2 分数大幅提升（通常能达到 0.7 以上）。

# 修改 X，使用所有特征
X_full = boston_df.drop(‘MEDV‘, axis=1) # 删除目标列，保留所有特征
# ... 重新划分数据并训练 ...

处理非线性关系: 从散点图我们可以看出，房价与某些特征的关系可能不是直线，而是曲线。你可以尝试添加多项式特征（例如 RM 的平方）来捕捉这种非线性关系。

异常值处理: 在 MEDV 接近 50 的地方，数据似乎被截断了（通常是因为调查设置了上限）。这些样本可能会干扰模型，建议将它们作为异常值剔除或单独处理。

总结与后续步骤

在这篇文章中，我们从零开始，详细探讨了波士顿房价数据集在 Sklearn 中的应用。我们不仅学习了如何加载数据，更重要的是学习了如何理解特征背后的含义，如何通过可视化来验证假设，以及如何构建一个线性回归模型进行预测。我们还讨论了数据弃用原因及替代方案，这培养了我们作为工程师的伦理意识。

但这仅仅是机器学习旅程的开始。为了进一步提升你的技能，我们建议你接下来尝试以下步骤：

尝试替代数据集: 按照本文的流程，去探索 fetch_california_housing 数据集，看看它的特征有什么不同。
模型对比: 尝试使用随机森林或梯度提升树来处理这个数据集，对比它们与线性回归的性能差异。
特征工程: 尝试创建新的特征，例如将两个特征组合或进行非线性变换，看看能否进一步提升模型的准确率。

希望这篇实战指南能帮助你更好地掌握 Sklearn 的数据处理技巧！继续加油，数据科学的世界充满了无限可能。

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客