深入理解数据中的异常值：检测、影响与处理策略

2026-02-04 05:48:13 0条评论 2次阅读 0人点赞

在数据科学和分析的日常工作中，我们经常遇到一些表现得格格不入的数据点。这些点就像是和谐乐章中的杂音，或者是整齐队伍中的那个“叛逆者”。我们把这种严重偏离数据集中其他观测对象的点称为异常值。在这篇文章中，我们将深入探讨异常值的本质、它们为何出现、如何分类，以及最关键的——我们如何通过代码检测和处理它们。无论你是正在准备清洗数据，还是优化机器学习模型，理解异常值都是迈向专业数据分析师的必经之路。

1 什么是异常值？
2 为什么会出现异常值？
3 为什么必须关注异常值？
4 异常值的类型
5 异常值检测技术
6 处理异常值的最佳实践
7 常见错误与解决方案
8 总结与展望

什么是异常值？

简单来说，异常值是指那些在数据集中显得“与众不同”的数据点。它们不遵循数据的一般模式或分布，要么异常高，要么异常低，或者仅仅是其组合方式不符合逻辑。

想象一下，我们在测量一群运动员的百米冲刺成绩，大部分人的成绩都在 10 秒到 12 秒之间，突然出现了一个 30 秒的成绩。这就是一个典型的异常值。它的存在会显著影响我们的统计指标，比如拉高平均成绩，或者误导我们的预测模型。

核心特征：

数值上显著偏离均值或中位数。
可能是由于测量错误，也可能是真实的极端情况（如“天才”运动员）。
对方差和标准差有不成比例的巨大影响。

为什么会出现异常值？

识别异常值只是第一步，理解它们背后的“故事”同样重要。根据我们的经验，异常值通常源于以下几种情况：

1. 数据录入或人为错误

这是最常见的原因。手动输入数据时难免会有手滑，比如在输入年龄时多打了一个零，或者将小数点放错了位置。这种情况下，异常值并不代表真实信息，而是噪音。

2. 测量或实验误差

仪器故障、校准不当或实验环境的变化都可能导致读数异常。例如，温度传感器在某一瞬间接触不良，可能会记录下一个极低的温度值。

3. 自然变异（真实异常）

有时候，异常值是真实且有效的。比如在欺诈检测中，欺诈者的行为本身就是异常的；或者在天文学中发现了一颗亮度极高的恒星。这种情况下，异常值往往是我们最想发现的“金矿”。

4. 数据处理错误

在数据清洗、提取或转换的过程中，可能会因为逻辑错误引入新的异常值。比如在合并数据表时键值不匹配，导致数值错位。

为什么必须关注异常值？

你可能会问：“既然数据量很大，忽略这几个点会怎样？” 实际上，影响是巨大的：

统计指标的扭曲：均值对异常值非常敏感。一个极端的数值可以让平均值完全失去代表性。
模型性能下降：许多机器学习算法（如线性回归、逻辑回归）都基于最小二乘法，它们会极力试图去“适应”这些异常点，从而导致模型过拟合，失去了对主流数据的预测能力。
假设检验失效：很多统计方法假设数据呈正态分布，异常值会破坏这一假设，导致检验结果不可靠。

因此，我们需要学会检测和处理它们。

异常值的类型

为了更好地制定检测策略，我们可以将异常值分为以下几类：

1. 单变量异常值

这是最直观的类型，指在单一变量维度上呈现极端值的点。

例子：在一个成年人的身高数据集中，大部分人的身高在 160cm 到 180cm 之间，突然出现一个 250cm 的数据。这显然是一个单变量异常值。

2. 多变量异常值

这类异常值在单个维度看可能很正常，但当结合多个变量一起看时，就会显得格格不入。

例子：一个人身高 190cm，体重 60kg。单独看身高和体重似乎都在合理范围内，但对于 190cm 的人来说，60kg 显得过于瘦弱，这是一个多维度的异常组合。

3. 上下文（条件）异常值

这种异常值只有在特定的上下文中才被认为是异常的。

例子：在夏天，30°C 是正常的气温；但如果是在冬天，30°C 就是一个极端的气候异常值。这里的“季节”就是上下文。

4. 集体异常值

当一组数据点作为一个整体表现出异常行为时，即使单个点可能不极端。

例子：在网络安全监控中，正常的网络访问可能看起来很随机，但如果有一系列连续的、高度规律的数据包请求（即使是小规模的），这可能预示着网络攻击。

异常值检测技术

接下来，让我们进入最实用的部分。我们将通过 Python 代码示例，探讨几种最常用的检测技术。

方法一：可视化检测（箱线图）

最直观的方法是用眼睛看。箱线图利用数据的四分位数（IQR）来展示数据的分布。

原理：

通常，数据落在 Q1 – 1.5 IQR 和 Q3 + 1.5 IQR 之外的点被视为异常值。

让我们编写代码来看看实际效果：

import numpy as np
import matplotlib.pyplot as plt

# 设置随机种子以保证结果可复现
np.random.seed(42)

# 生成一组正态分布的数据，模拟身
# 均值 170，标准差 10
data = np.random.normal(170, 10, 100)

# 人为添加几个明显的异常值
outliers = np.array([140, 210, 215])
data_with_outliers = np.append(data, outliers)

print(f"数据集大小: {len(data_with_outliers)}")

# 使用 Matplotlib 绘制箱线图
plt.figure(figsize=(8, 6))
plt.boxplot(data_with_outliers, vert=False, patch_artist=True,
            boxprops=dict(facecolor=‘lightblue‘))
plt.title(‘利用箱线图检测异常值‘)
plt.xlabel(‘身高
plt.show()

# 我们可以手动计算一下边界
Q1 = np.percentile(data_with_outliers, 25)
Q3 = np.percentile(data_with_outliers, 75)
IQR = Q3 - Q1

lower_bound = Q1 - (1.5 * IQR)
upper_bound = Q3 + (1.5 * IQR)

print(f"Q1 (25%): {Q1:.2f}")
print(f"Q3 (75%): {Q3:.2f}")
print(f"IQR: {IQR:.2f}")
print(f"正常值范围: {lower_bound:.2f} 到 {upper_bound:.2f}")

代码解析：

在这段代码中，我们首先模拟了一个符合正态分布的数据集，然后故意混入了一些极端的数值（140 和 215）。通过 plt.boxplot，我们可以清晰地看到箱体之外的圆点，这些就是被算法标记出来的异常值。我们还手动计算了 IQR 的上下边界，这在实际数据清洗中非常有用，可以帮助我们编写过滤脚本。

方法二：Z-Score（标准分数）

Z-Score 是统计学中的经典方法。它告诉我们一个数据点距离平均值有多少个标准差。

原理：

假设数据服从正态分布。
如果 Z-Score 的绝对值大于 3（即距离均值超过 3 个标准差），我们通常认为该点是异常值。

公式：$Z = (X – \mu) / \sigma$

让我们来看看如何实现它：

import numpy as np
from scipy import stats

# 生成实验数据
np.random.seed(10)
data = np.random.normal(loc=100, scale=15, size=200)

# 添加几个离群值
data[0] = 10   # 极低值
data[1] = 180  # 极高值

# 计算 Z-Score
z_scores = np.abs(stats.zscore(data))

# 设定阈值
threshold = 3

# 找出异常值的索引
outlier_indices = np.where(z_scores > threshold)

print(f"检测到的异常值数量: {len(outlier_indices[0])}")
print(f"异常值的索引: {outlier_indices[0]}")
print("对应的数值:", data[outlier_indices])

# 实际应用中，我们可能会这样过滤数据
filtered_data = data[z_scores < threshold]
print(f"原始数据大小: {len(data)}, 过滤后大小: {len(filtered_data)}")

代码解析与技巧：

这里我们使用了 scipy.stats 库来快速计算 Z-Score。注意，Z-Score 方法对数据的均值和标准差非常敏感。如果数据本身非常偏斜（不是正态分布），Z-Score 可能会产生误导。在这种情况下，我们通常会在计算前对数据进行对数转换，或者改用 IQR 方法。这是一个常见的实战误区，请务必注意。

方法三：DBSCAN 聚类算法（用于多变量异常）

对于复杂的多维数据，传统的统计方法往往失效。这时我们可以使用基于密度的聚类算法，如 DBSCAN。它的核心思想是：异常点通常是那些处于低密度区域的点，周围没有邻居。

import numpy as np
from sklearn.cluster import DBSCAN
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

# 生成一些簇状数据
X, _ = make_blobs(n_samples=300, centers=3, cluster_std=0.5, random_state=0)

# 添加一些随机噪声作为异常值
np.random.seed(42)
n_outliers = 20
X_outliers = np.random.uniform(low=-10, high=10, size=(n_outliers, 2))
# 合并数据
X = np.vstack([X, X_outliers])

# 实例化 DBSCAN
# eps: 邻域半径，min_samples: 核心点所需的最小样本数
db = DBSCAN(eps=0.8, min_samples=10).fit(X)

# 标签为 -1 的点被视为噪声（即异常值）
labels = db.labels_

# 区分正常点和异常点
# -1 表示异常值，其他数字表示所属的簇
unique_labels = set(labels)
colors = [‘y‘, ‘b‘, ‘g‘, ‘r‘]

print(f"聚类结果标签: {set(labels)}")
print(f"检测到的异常点数量: {list(labels).count(-1)}")

# 可视化结果
plt.figure(figsize=(10, 7))

for k in unique_labels:
    if k == -1:
        # 黑色用于异常值
        col = ‘k‘
        marker = ‘x‘
        lbl = ‘异常值‘
    else:
        col = colors[k % len(colors)]
        marker = ‘o‘
        lbl = f‘簇 {k}‘
    
    class_member_mask = (labels == k)
    xy = X[class_member_mask]
    plt.plot(xy[:, 0], xy[:, 1], marker, alpha=0.7, color=col, label=lbl, markersize=6 if k==-1 else 10)

plt.title(‘使用 DBSCAN 检测多变量异常值‘)
plt.legend()
plt.show()

代码解析与深度见解：

在这个例子中，我们生成了一些聚集在一起的“正常”数据，并撒入了一些随机噪声。DBSCAN 的强大之处在于它不需要我们预先声明有多少个异常值，它会自动根据密度将那些“孤苦伶仃”的点标记为 -1（噪声）。

实战建议： 调整 INLINECODE68b5a777（半径）和 INLINECODE3f1e9543 是一门艺术。如果 eps 太大，可能会把真正的异常值也吸入簇中；如果太小，可能会把正常数据也当成异常值。建议多次尝试参数，结合可视化结果来定夺。

方法四：隔离森林

这是目前工业界非常流行的高效算法，特别适用于大规模数据集。

原理：

异常值通常是少数且具有显著特征的。
如果我们随机切分特征空间，异常值往往很快就能被“隔离”出来（即切分次数很少），而正常数据需要更多的切分次数才能被分开。

import numpy as np
from sklearn.ensemble import IsolationForest
import matplotlib.pyplot as plt

# 模拟数据
rng = np.random.RandomState(42)

# 生成 100 个正常训练样本
X = 0.3 * rng.randn(100, 2)
X_train = np.r_[X + 2, X - 2]

# 生成 20 个新的“正常”观测值
X = 0.3 * rng.randn(20, 2)
X_test = np.r_[X + 2, X - 2]

# 生成一些异常值
X_outliers = rng.uniform(low=-4, high=4, size=(20, 2))

# 合并用于测试
X_all = np.r_[X_test, X_outliers]

# 训练模型
# contamination: 预期的异常值比例
clf = IsolationForest(max_samples=100, random_state=rng, contamination=0.1)
clf.fit(X_train)

# 预测：1 代表正常，-1 代表异常
y_pred = clf.predict(X_all)

print(f"预测结果: {y_pred}")
print("(1 为正常, -1 为异常)")

# 可视化
plt.title("隔离森林检测")
# 绘制正常点
b1 = plt.scatter(X_all[:, 0], X_all[:, 1], c=‘white‘,
                 s=20, edgecolor=‘k‘, label="数据点")

# 绘制异常点（根据预测结果上色）
plt.scatter(X_all[y_pred == -1, 0], X_all[y_pred == -1, 1], c=‘red‘,
            s=100, edgecolor=‘k‘, marker=‘x‘, label="检测到的异常")

plt.axis(‘tight‘)
plt.xlim((-5, 5))
plt.ylim((-5, 5))
plt.legend()
plt.show()

性能优化提示：

隔离森林的计算效率很高，因为它不需要计算距离矩阵（不像 KNN）。在处理高维数据时，它的表现通常优于传统的统计学方法。不过要注意 contamination 参数的设置，如果你对数据的脏乱程度预判错误，可能会影响最终的召回率。

处理异常值的最佳实践

检测只是第一步，当我们发现了异常值，该怎么处理它们？这取决于业务场景和异常值的性质。

直接删除：

如果确认是数据录入错误，且数据量足够大，直接删除是最简单的方法。但在删除前，务必记录下删除了多少数据，以评估对总体样本的影响。

填充/替换：

有时我们不想丢失整行数据。可以使用中位数、均值，或者使用 KNN 算法来预测并替换掉异常值。

分箱处理：

将连续变量离散化为分位数。例如，将所有超过第 99 百分位的数值强制设为第 99 百分位的值。这种方法在处理极端数值时非常有效，可以防止模型被极端值带偏。

对数转换：

对于长尾分布的数据（如收入、房价），取对数可以压缩大数值的尺度，使得分布更接近正态分布，从而降低异常值的影响。

对异常值敏感的模型 vs 不敏感的模型：

如果你无法处理异常值，可以考虑使用对异常值不敏感的模型，例如树模型（随机森林、XGBoost）。它们基于排序分裂，数值的大小变化不会像线性回归那样剧烈影响模型结构。

常见错误与解决方案

在实战中，初学者常犯的错误包括：

盲目删除：看到一个偏离的点就删掉。这可能导致“幸存者偏差”，特别是如果你的数据集本身就包含重要的罕见事件（如信用风险欺诈）。

– 解决：在做决定前，必须回到数据源头进行核实。

过度依赖单一方法：只用 Z-Score 可能发现不了某些复杂模式的异常值。

– 解决：组合使用多种方法。例如，先用 Z-Score 筛选一遍，再用聚类算法在多维空间中检查一遍。

忽视数据分布：在严重偏态的数据上使用 Z-Score。

– 解决：先绘制分布图（直方图、Q-Q 图），确认数据分布形态，再选择合适的统计量（如用中位数代替均值）。

总结与展望

异常值处理不仅仅是数据清洗的脏活累活，它更是理解数据业务逻辑的关键窗口。在本文中，我们从基本定义出发，学习了从简单的箱线图到复杂的隔离森林等多种技术手段。

掌握这些技能后，你将能更自信地面对混乱的真实世界数据。记住，数据分析的本质不是为了得到一个“完美”的数字，而是为了从数据中挖掘出真实的、有价值的洞察。处理异常值，正是为了让这种洞察更加清晰、准确。

在下一个项目中，当你再次看到那些离群的数据点时，不妨停下来想一想：它们是错误，还是某种我们尚未发现的真相？

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客