深入理解 Scikit-Learn 中的概率校准曲线：原理、代码与实战

2026-02-09 22:44:48 0条评论 4次阅读 0人点赞

在构建机器学习模型时，你是否曾遇到过这样的情况：一个模型预测某样本为正类的概率是 0.9，但实际上，在所有预测概率为 0.9 的样本中，真正为正类的比例却只有 0.7？这意味着你的模型虽然很“自信”，但却并不靠谱。这就引出了我们今天要探讨的核心话题——概率校准。

在这篇文章中，我们将深入探讨概率校准曲线的原理，了解为什么我们需要它，以及如何使用 Scikit-learn 这一强大的工具来绘制和解读它。我们不仅要掌握理论，更要通过实战代码，学会如何评估和改进模型的预测概率，使其更具可信度。无论你是在做金融风控、医疗诊断还是普通的业务分析，准确的概率预估都能为决策提供更坚实的支持。

什么是概率校准？

简单来说，概率校准是一种用于调整二分类模型输出分数的技术，目的是将其转化为准确的后验概率，即预测值要与实际发生的频率相匹配。

让我们通过一个例子来理解：

假设我们的模型预测 100 个病人的患癌概率都在 0.8 左右。如果这 100 个病人中，实际上只有 50 个人确诊，那么模型的“真实概率”其实是 0.5，而不是预测的 0.8。这种情况下，模型的预测概率就是未校准的（Over-confident，过于自信）。我们的目标是通过校准，让预测的 0.8 尽可能接近真实的 0.8。

核心概念：校准曲线与相关指标

在深入代码之前，我们需要先熟悉几个描述这一过程的关键术语。理解这些概念对于后续分析至关重要。

二分类器：这是我们用来区分两个类别（如 0 和 1，或“良性”与“恶性”）的算法模型。常见的例子包括逻辑回归、支持向量机（SVM）和随机森林等。

预测概率：这是模型对样本属于正类的置信度分数，介于 0 到 1 之间。注意，不是所有模型的输出都能直接被视为概率（例如 SVM 输出的距离值），通常需要经过转换（如 Sigmoid 或 Platt Scaling）。

真实概率：这是上帝视角，指的是在给定条件下，事件实际发生的频率。在实际统计中，我们通常通过将大量预测值分箱后，计算每个箱子内的正类占比来近似估计这一值。

校准曲线：也称为可靠性图。这是一个二维图表，横轴是预测概率，纵轴是真实频率。它是检查模型校准程度最直观的工具。

* 完美校准：如果曲线紧贴着 45 度的对角线，说明模型预测准了，说 80% 就有 80%。

* 偏离对角线：如果曲线位于对角线下方，说明模型过于自信（预测概率高于实际频率）；如果位于上方，说明不够自信（预测概率低于实际频率）。

布里尔分数：这是衡量校准误差的一个量化指标。它是预测概率与真实概率之间的均方误差。分数范围从 0 到 1，越接近 0 越好（表示完美校准），越接近 1 表示误差越大。

CalibratedClassifierCV：这是 Scikit-learn 中用于执行校准的元估计器。它可以使用交叉验证来训练基础分类器，并应用 sigmoid 或 isotonic 方法来校准概率。

calibration_curve：这是 Scikit-learn 中用于计算校准曲线数据的函数。它返回分箱后的真实正例率和预测概率均值，方便我们绘图。

为什么我们需要校准？

许多机器学习算法（如 SVM、决策树、随机森林、AdaBoost）默认输出的并不是严格的概率，而是某种“得分”。虽然 Scikit-learn 中的这些模型通常提供了 predict_proba 方法，但这些数值往往是未校准的。

特别是在以下场景中，校准显得尤为重要：

不平衡数据集：当你处理欺诈检测或罕见疾病预测时，数据极度不平衡，模型容易倾向于输出接近 0 或 1 的极端概率。
决策阈值敏感：当你需要根据概率值来决定后续动作，例如“只有预测概率大于 80% 才放贷”时，如果这个 80% 是虚高的，就会导致坏账率上升。
模型融合：当你尝试将不同类型的模型（如逻辑回归和随机森林）集成在一起时，如果它们的概率尺度不一致，融合效果会很差。这时统一进行概率校准是必不可少的步骤。

实战演示：使用 Scikit-learn 绘制校准曲线

现在，让我们动手实践。我们将使用经典的 Breast Cancer Wisconsin（威斯康星乳腺癌）数据集。这是一个二分类问题，非常适合用来演示概率校准。

在接下来的例子中，我们将对比两种截然不同的算法：逻辑回归 和 随机森林。

逻辑回归天生具有对数损失函数，其输出概率通常是校准良好的。
随机森林则是取叶子节点中类别的平均比例作为概率，这往往会导致模型过于自信（概率分布趋向于 0 和 1，缺乏中间地带）。

让我们看看如何验证这一点。

#### 示例 1：绘制基础校准曲线

首先，我们需要加载数据，划分训练集和测试集，并训练模型。然后，我们将利用 Matplotlib 绘制校准曲线。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.calibration import calibration_curve
from sklearn.metrics import brier_score_loss

# 1. 加载数据
# 这是一个二分类数据集，用于预测肿瘤是良性还是恶性
data = load_breast_cancer()
X, y = data.data, data.target

# 2. 划分训练集和测试集
# 我们保留一部分数据完全不动，用于最后的验证
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 3. 初始化两个对比模型
# 逻辑回归：通常不需要额外的校准
lr = LogisticRegression(max_iter=10000)
# 随机森林：以树模型著称，往往输出过于自信的概率
rf = RandomForestClassifier(n_estimators=100, random_state=42)

# 4. 训练模型
lr.fit(X_train, y_train)
rf.fit(X_train, y_train)

# 5. 获取测试集上的预测概率
# predict_proba 返回两列，第二列是正类的概率
probs_lr = lr.predict_proba(X_test)[:, 1]
probs_rf = rf.predict_proba(X_test)[:, 1]

# 6. 计算布里尔分数
# 这是衡量概率准确性的量化指标，越低越好
print(f"逻辑回归 Brier Score: {brier_score_loss(y_test, probs_lr):.4f}")
print(f"随机森林 Brier Score: {brier_score_loss(y_test, probs_rf):.4f}")

# 7. 计算校准曲线数据
# n_bins=10 表示我们将概率区间 [0,1] 分成 10 个桶
fraction_of_positives_lr, mean_predicted_value_lr = calibration_curve(y_test, probs_lr, n_bins=10)
fraction_of_positives_rf, mean_predicted_value_rf = calibration_curve(y_test, probs_rf, n_bins=10)

# 8. 绘图
plt.figure(figsize=(10, 8))

# 绘制完美校准线（45度线）
plt.plot([0, 1], [0, 1], "k:", label="完美校准")

# 绘制逻辑回归的校准曲线
plt.plot(mean_predicted_value_lr, fraction_of_positives_lr, "s-", label="逻辑回归")

# 绘制随机森林的校准曲线
plt.plot(mean_predicted_value_rf, fraction_of_positives_rf, "s-", label="随机森林")

plt.xlabel("平均预测概率")
plt.ylabel("正类的真实频率")
plt.title("概率校准曲线对比")
plt.legend()
plt.grid(True)
plt.show()

代码解析：

我们导入了 INLINECODEa486aac3 函数，它的作用是将测试样本按照预测概率分箱，然后计算每个箱子内真实的正例率（INLINECODE88ef71fb）和箱子中心对应的预测概率（mean_predicted_value）。
在 plt.plot 中，横轴是模型预测的概率，纵轴是实际发生的频率。
你可能会观察到，随机森林的曲线形状通常比较“扭曲”，或者偏向于远离对角线，这就证实了其输出概率并未精确反映真实可能性。

#### 示例 2：使用 CalibratedClassifierCV 进行校准

既然发现了随机森林的概率不够准确，我们该如何修复呢？Scikit-learn 提供了 CalibratedClassifierCV。我们可以将其包裹在原始分类器外部，使用交叉验证来学习一个映射函数，从而修正概率值。

校准主要有两种方法：

‘sigmoid‘ (Platt Scaling)：类似于逻辑回归，适合小样本量或模型欠校准的情况。
‘isotonic‘ (等渗回归)：非参数方法，更灵活，适合数据量较大且原始模型偏差较大的情况。

让我们看看如何对随机森林应用校准：

from sklearn.calibration import CalibratedClassifierCV

# 初始化随机森林
rf_base = RandomForestClassifier(n_estimators=100, random_state=42)

# 使用 CalibratedClassifierCV 进行校准
# method=‘isotonic‘：使用等渗回归校准
# cv=5：使用 5 折交叉验证来拟合校准器，防止过拟合
calibrated_rf = CalibratedClassifierCV(base_estimator=rf_base, method=‘isotonic‘, cv=5)

# 训练
# 注意：fit 方法会同时训练基础分类器和校准层
calibrated_rf.fit(X_train, y_train)

# 获取校准后的概率
probs_calibrated = calibrated_rf.predict_proba(X_test)[:, 1]

# 重新计算布里尔分数
print(f"原始随机森林 Brier Score: {brier_score_loss(y_test, probs_rf):.4f}")
print(f"校准后随机森林 Brier Score: {brier_score_loss(y_test, probs_calibrated):.4f}")

# 计算校准后的曲线数据
fraction_of_positives_calibrated, mean_predicted_value_calibrated = calibration_curve(y_test, probs_calibrated, n_bins=10)

# 绘图对比
plt.figure(figsize=(10, 8))
plt.plot([0, 1], [0, 1], "k:", label="完美校准")
plt.plot(mean_predicted_value_rf, fraction_of_positives_rf, "s-", label="原始随机森林", color=‘orange‘)
plt.plot(mean_predicted_value_calibrated, fraction_of_positives_calibrated, "^-", label="校准后随机森林", color=‘blue‘, linewidth=2)

plt.xlabel("平均预测概率")
plt.ylabel("正类的真实频率")
plt.title("校准前后的效果对比")
plt.legend()
plt.grid(True)
plt.show()

实战见解：

运行这段代码后，你会发现校准后的随机森林曲线明显向 45 度线靠拢，而布里尔分数也应该有所下降（改善）。这意味着现在当模型告诉你概率是 70% 时，它比之前可信得多了。

#### 示例 3：综合对比多种模型的校准情况

在实际工程中，我们往往要在多个模型中做选择。让我们构建一个更全面的视图，同时展示逻辑回归、朴素贝叶斯、支持向量机（SVC）以及它们在校准后的表现。

注意：SVC 默认不提供 INLINECODEc84364fe，需要开启 INLINECODEe190b27b，这会使用内部 Platt Scaling，但效果可能不如外部显式的 CalibratedClassifierCV。

from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC

# 准备模型列表
models = {
    "逻辑回归": LogisticRegression(max_iter=10000),
    "高斯朴素贝叶斯": GaussianNB(), # NB 通常假设特征独立，概率往往分布不佳
    "SVC (未校准)": SVC(probability=True), # 强制计算概率，但通常不准
}

# 存储结果用于绘图
results = {}

# 训练和预测
for name, model in models.items():
    model.fit(X_train, y_train)
    if hasattr(model, "predict_proba"):
        probs = model.predict_proba(X_test)[:, 1]
    else:
        # 对于没有 predict_proba 的模型（理论上这里不会发生，因为我们选的都有），使用决策函数的 sigmoid
        decision = model.decision_function(X_test)
        probs = 1 / (1 + np.exp(-decision))
        
    loss = brier_score_loss(y_test, probs)
    fop, mpv = calibration_curve(y_test, probs, n_bins=10)
    results[name] = (fop, mpv, loss)
    print(f"{name} - Brier Score: {loss:.4f}")

# 同时测试校准后的 SVC
# SVC 本身输出的是决策边界距离，通常未校准，非常适合展示校准效果
svc = SVC(random_state=42)
calibrated_svc = CalibratedClassifierCV(svc, method=‘sigmoid‘, cv=5)
calibrated_svc.fit(X_train, y_train)
probs_svc_cal = calibrated_svc.predict_proba(X_test)[:, 1]
loss_svc_cal = brier_score_loss(y_test, probs_svc_cal)
fop_svc_cal, mpv_svc_cal = calibration_curve(y_test, probs_svc_cal, n_bins=10)
results["SVC (校准后)"] = (fop_svc_cal, mpv_svc_cal, loss_svc_cal)

# 绘制综合对比图
plt.figure(figsize=(12, 8))
plt.plot([0, 1], [0, 1], "k:", label="完美校准")

for name, (fop, mpv, loss) in results.items():
    plt.plot(mpv, fop, "--", label=f"{name} (Brier={loss:.3f})")

plt.xlabel("平均预测概率")
plt.ylabel("正类的真实频率")
plt.title("不同模型的概率校准曲线综合对比")
plt.legend(loc="best")
plt.grid(alpha=0.3)
plt.show()

通过这个图表，我们可以清晰地看到：

逻辑回归通常表现最好，曲线最接近对角线。
朴素贝叶斯可能会显示出典型的“S”形偏差，因为它的独立假设在实际数据中往往不成立，导致概率向 0.5 靠拢。
SVC（未校准）往往非常糟糕，因为它是基于几何间隔而非概率进行分类的。
校准后的 SVC 曲线大幅改善，甚至接近逻辑回归的表现。

常见错误与最佳实践

在使用概率校准时，有几个坑你需要注意：

数据泄露：千万不要在用来训练校准器的数据上评估校准效果。这就是为什么我们要划分训练集和测试集，或者使用交叉验证（如 INLINECODE572fd893 中内置的 INLINECODEb202367c 参数）。如果你用训练数据来校准，模型看起来会极其完美，但这只是它记住了答案而已。

样本量不足：如果你使用 INLINECODE709bf32a，它是一种非参数方法，需要较多的数据才能拟合出好的映射。如果你的数据集很小（例如几百条样本），建议使用 INLINECODEaec19fb2，否则可能会过拟合。

混淆 AUC 和校准：一个模型可以拥有很高的 AUC（排名能力很强，即能把正类排得比负类靠前），但概率校准却很差。不要以为模型准确率高，它的概率就是准确的。校准曲线关注的是概率的绝对值，而不仅仅是相对顺序。

总结

在这篇文章中，我们深入探讨了概率校准这一重要技术。我们了解到，模型的预测概率并不总是可信的，特别是对于基于决策树的算法或 SVM 等非概率模型。

我们掌握了以下关键点：

概率校准曲线是直观检查模型校准状况的最佳工具，曲线越接近 45 度线越好。
布里尔分数提供了量化的评估标准。
Scikit-learn 提供了 INLINECODE73bf12e6，方便我们通过 INLINECODE8794c8f6 或 ‘isotonic‘ 方法对模型进行修正。
在实际应用中，特别是涉及高风险决策的业务场景（如医疗诊断、金融审批），对模型进行概率校准是提升模型可信度的必要步骤。

现在，当你拿到一个新的分类任务时，不妨多画一条校准曲线，看看你的模型到底是在“瞎猜”，还是在给出真正的“预言”。希望这篇教程能帮助你构建更稳健的机器学习应用！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客