机器学习中的数据清洗：从入门到精通的实战指南

2026-02-09 05:34:32 0条评论 1次阅读 0人点赞

在机器学习的日常工作中，我们经常听到这样一句话：“数据决定模型的上限，而算法只是无限逼近这个上限。” 但在拿到第一手数据时，你是否曾因为那一堆缺失值、奇怪的重复行或者混乱的格式感到头疼？别担心，这不仅是你的困扰，也是每一位数据科学家必须面对的挑战。

在本文中，我们将深入探讨机器学习流程中至关重要的一环——数据清洗（Data Cleansing）。与传统的教程不同，我们将结合 2026 年最新的技术趋势，特别是 AI 辅助编程 和 企业级工程化 的视角，带你掌握如何将杂乱的原始数据转化为可供模型使用的“高纯度”资产。无论你是刚刚入门的数据分析师，还是希望规范工作流的资深开发者，这篇文章都将为你提供从理论到代码的全方位指引。

数据清洗的现代定义：不仅仅是“大扫除”

简单来说，数据清洗就是我们在数据分析和模型构建之前，对原始数据进行“大扫除”的过程。但在 2026 年，随着数据量的爆炸式增长和 LLM（大语言模型）的普及，我们对数据清洗的理解已经从“修补错误”上升到了“数据资产管理”的高度。

#### 为什么原始数据总是“脏”的？

当我们从数据库、API 或日志文件中导出数据时，原始数据往往包含大量的“噪声”。这些噪声的来源比以往更加复杂：

不完整性：比如用户注册时未填写年龄，或者传感器故障导致某段时间的数据丢失。这在物联网场景中尤为常见。
不一致性：比如日期格式混乱（“2023/01/01” 与 “01-01-2023”），或者同类数据在不同微服务中的命名标准不同（“US”、“USA”、“U.S.A”）。在数据治理没落地之前，这是常态。
噪声与错误：包含录入错误、偏离常态的异常值，甚至完全无关的冗余信息。
非结构化融合挑战：现在我们经常需要将文本、图像元数据与传统表格数据合并，这带来了前所未有的格式清洗难题。

如果不处理这些问题，直接将数据喂给模型，结果就是著名的“垃圾进，垃圾出”。在现代 AI 系统中，脏数据甚至会导致 LLM 产生幻觉或严重误导。

数据清洗的通用步骤与 2026 演进

在面对一个新的数据集时，我们可以遵循一套标准化的“清洗流水线”。这不仅能提高效率，还能防止遗漏关键问题。以下是该流程的核心步骤及其在现代开发中的演进：

移除不需要的观测值

这包括重复数据（Duplicate Data）和无关数据（Irrelevant Data）。在推荐系统中，重复数据可能导致严重的偏见，使得模型对某些热门物品的权重过高。

修复结构性错误

这类错误通常包括拼写错误（如 “Mael” vs “Male”）、错误的变量类型。在现代 PII（个人隐私信息）处理场景下，我们还需要清洗掉敏感的合规数据。

筛选不需要的异常值

异常值不一定是错误的，但它们可能会扭曲统计分析的结果。在金融风控领域，区分“噪声”和“高风险信号”是清洗的核心。

处理缺失数据

这是最棘手的一步。除了传统的均值填充，2026 年我们更多会使用 生成式 AI 来基于上下文预测缺失值，或者直接利用深度学习模型的不确定性估计来处理。

验证与逻辑检查

—

实战演练：使用 Titanic 数据集进行清洗（含 AI 辅助编码技巧）

理论说得再多，不如动手敲几行代码。为了让你更直观地理解每一个步骤，我们将使用经典的 Titanic（泰坦尼克号）数据集。在开始之前，我想分享一个我们在 2026 年常用的开发技巧：利用 Cursor 或 GitHub Copilot 等 AI IDE 进行“意图编程”。我们不再需要手写每一个函数，而是清晰地告诉 AI 我们的意图，让它生成初始代码，然后我们进行审查和优化。

#### 步骤 1：环境准备与数据加载

首先，我们需要导入必要的库。Pandas 依然是我们进行数据操作的核心工具，而 Polars 正在成为处理大规模数据的首选（因其基于 Rust 的高性能）。但在本例中，我们还是以 Pandas 为例。

让我们先加载数据，并查看数据的基本信息。

import pandas as pd
import numpy as np

# 设置更美观的显示选项
pd.set_option(‘display.max_columns‘, None)
pd.set_option(‘display.float_format‘, ‘{:.2f}‘.format)

# 加载数据集
# 在实际项目中，建议使用 pathlib 库来管理路径，更加跨平台兼容
df = pd.read_csv(‘Titanic-Dataset.csv‘)

# 显示数据的基本信息
df.info()

# 显示前 5 行数据，预览数据结构
# 你可能会注意到，‘Name‘ 列包含了很多文本信息，这在 NLP 任务中非常有用，但在传统 ML 中需要清洗
df.head()

代码解析与 AI 技巧：

运行 INLINECODEb960b21f 后，请注意观察 INLINECODE8a4abf28。在 2026 年，数据量动辄 TB 级，如果发现 INLINECODEa4fe341f 类型占用内存过大，我们会立即考虑将其转换为 INLINECODEfbd621be 类型以节省内存。你可以试着问你的 AI 助手：“如何优化这个 DataFrame 的内存占用？”，它会给你很好的建议。

#### 步骤 2：检查并处理重复行

重复数据是数据清洗中的首要敌人。它会导致数据泄露，即验证集中的信息意外出现在训练集中。

# 检查重复行
# keep=False 会标记所有重复项（包括第一次出现的）
 duplicates = df[df.duplicated(keep=False)]

print(f"重复行的总数: {df.duplicated().sum()}")

# 如果你只想知道是否有重复，以及总共有多少行重复，可以这样写：
if df.duplicated().sum() > 0:
    print("警告：发现重复数据，将进行去重处理。")
    # 删除重复行
    # inplace=True 表示直接在原数据集上修改，但在企业级代码中，为了可追溯性，通常建议创建副本
    df = df.drop_duplicates()
    print(f"去重后的数据形状: {df.shape}")
else:
    print("数据集无重复行。")

#### 步骤 3：数据类型分离与识别

在处理数据时，区分数值型数据（Numerical）和分类型数据（Categorical）至关重要。让我们编写一段更健壮的代码，自动将这两类列分开存储，并处理那些“伪装”成数字的分类数据。

# 筛选数据类型为 ‘object‘（通常是字符串/文本）的列，作为分类列
cat_col = [col for col in df.columns if df[col].dtype == ‘object‘]

# 筛选数据类型为 ‘number‘ 的列（比单纯的 != ‘object‘ 更严谨）
num_col = [col for col in df.columns if df[col].dtype in [‘int64‘, ‘float64‘]]

print(‘分类列:‘, cat_col)
print(‘数值列:‘, num_col)

# 2026 视角：检查是否有高基数的分类列（如 ID），这些通常对模型预测没有帮助
for col in cat_col:
    unique_count = df[col].nunique()
    if unique_count > len(df) * 0.9: # 唯一值占比超过 90%
        print(f"提示: {col} 列唯一值过多 ({unique_count})，可能需要剔除或进行特征哈希处理。")

#### 步骤 4：缺失值的定量分析与处理策略

在决定如何填充之前，我们需要先量化缺失的程度。

# 计算每一列缺失值的百分比
missing_percentage = round((df.isnull().sum() / df.shape[0]) * 100, 2)
missing_df = pd.DataFrame({
    ‘Column‘: df.columns,
    ‘Missing_Percentage‘: missing_percentage
}).sort_values(by=‘Missing_Percentage‘, ascending=False)

print(missing_df)

# 可视化缺失值（可选）
# import seaborn as sns
# sns.heatmap(df.isnull(), cbar=False)

决策逻辑（生产级）：

< 5%：可以直接删除（Listwise Deletion）或使用简单的统计量填充。但如果数据量很小，建议还是填充。
20% – 50%：这是危险区域。如果是重要特征（如 Age），我们必须使用 KNN 插补 或 迭代插补，甚至训练一个简单的模型来预测它。
> 50%：通常建议直接删除该列，除非该特征极其关键（如医疗领域的某项罕见指标）。

让我们动手解决 Titanic 的问题：

# 1. 删除无关列和缺失过多的列
df1 = df.drop(columns=[‘Name‘, ‘Ticket‘, ‘Cabin‘, ‘PassengerId‘])

# 2. 处理剩余的缺失值
df1.dropna(subset=[‘Embarked‘], inplace=True)

# 3. 使用中位数填充 Age（比均值更鲁棒，不易受异常值影响）
median_age = df1[‘Age‘].median()
df1[‘Age‘].fillna(median_age, inplace=True)

# 验证清洗结果
print("清洗后缺失值统计：")
print(df1.isnull().sum())

#### 步骤 5：异常值检测（可视化与统计方法）

异常值处理需要非常小心。在欺诈检测中，异常值正是我们要找的目标！但在一般的回归任务中，它们会破坏模型的收敛。

import matplotlib.pyplot as plt
import seaborn as sns

# 设置绘图风格
plt.style.use(‘ggplot‘)

# 绘制 ‘Age‘ 和 ‘Fare‘ 的箱线图对比
fig, axes = plt.subplots(1, 2, figsize=(14, 6))

# Age 的分布
sns.boxplot(y=df1[‘Age‘], ax=axes[0], color="skyblue")
axes[0].set_title(‘Age Distribution‘)

# Fare 的分布（通常有严重的长尾效应）
sns.boxplot(y=df1[‘Fare‘], ax=axes[1], color="lightgreen")
axes[1].set_title(‘Fare Distribution (Check for Skewness)‘)

plt.tight_layout()
plt.show()

进阶技巧：

看到 Fare 的异常值了吗？这些可能是购买了顶级船票的富豪。简单删除会丢失信息。在生产环境中，我们通常会使用 对数变换 来压缩这些极值，而不是直接删除。

# 使用对数变换处理偏态数据（加 1 是为了避免 log(0)）
df1[‘Fare_Log‘] = np.log1p(df1[‘Fare‘])

# 让我们看看变换后的效果
# 你会发现数据分布更加正态化，这对于线性模型和神经网络非常有利
print("原始 Fare 偏度:", df1[‘Fare‘].skew())
print("Log 变换后偏度:", df1[‘Fare_Log‘].skew())

生产环境中的最佳实践与陷阱

在我们最近的一个电商推荐系统项目中，我们曾遇到一个棘手的问题：数据清洗管道本身成为了性能瓶颈。以下是我们总结的经验：

警惕数据泄露：永远不要在拆分训练集和测试集之前进行全局的均值填充或标准化。你应该先拆分，然后基于训练集的统计量来填充测试集。否则，模型就是在“作弊”。

代码可复现性：不要使用 inplace=True 修改原始数据，除非你非常确定。在企业级开发中，我们倾向于创建新的列或副本，以便回溯和调试。所有的清洗逻辑都应该封装在函数或类中，便于单元测试。

性能优化：对于超过 100GB 的数据集，Pandas 可能会撑爆内存。2026 年的解决方案是迁移到 Polars 或使用 Dask 进行并行计算。Polars 的语法与 Pandas 类似，但利用了多核 CPU，速度快得惊人。

# 简单的 Polars 迁移示例（概念性）
# import polars as pl
# df_pl = pl.read_csv(‘large_dataset.csv‘)
# Polars 的懒惰评估 可以极大优化查询性能
# result = df_pl.lazy().filter(pl.col("age") > 18).collect()

总结与展望：AI 驱动的未来

经过上述步骤，我们已经将一份原始的 Titanic 数据集，转化为了结构清晰、数据完整的“干净”数据集。但 2026 年的数据清洗远不止于此。

下一步建议：

清洗只是第一步。接下来，你可以尝试利用 LLM 进行特征工程。例如，你可以将乘客的 Name 列输入给一个小型 LLM（如 Llama 3 或 Mistral），提取出称谓和社会地位，这往往比单纯的性别特征更具预测力。

最后的话：

数据清洗不再是枯燥的脏活累活，而是模型成功的基石。结合现代 AI 工具，我们现在的效率比五年前提高了数倍。希望这篇指南能帮助你在数据科学的道路上迈出坚实的一步。保持对数据的敏感度，保持好奇心，让我们一起清洗出属于未来的“黄金”数据集吧！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客