如何利用 Altair 根据变量为散点图着色？从入门到精通的实用指南

2026-02-14 03:52:40 0条评论 56次阅读 0人点赞

在数据科学和可视化的探索旅程中，我们经常遇到这样的挑战：如何从成堆的数据中挖掘出变量之间隐秘的关系？散点图无疑是应对这一挑战的利器，它能直观地展示两个数值变量之间的相关性。但是，当我们面对复杂的数据集时，仅仅依靠 X 轴和 Y 轴的双变量分析往往是不够的。你可能会有这样的疑问：如果我能在散点图中引入第三个维度，比如“分类”，来区分不同的数据点，那会对我的分析产生多大的帮助？

这正是我们今天要深入探讨的主题。在这篇文章中，我们将一起学习如何使用 Python 的 Altair 库，通过第三个变量为散点图着色，从而让数据的故事更加清晰、生动。我们将从最基础的概念入手，逐步深入到自定义颜色映射、处理复杂数据类型以及优化可视化效果的实用技巧。无论你是数据分析的初学者，还是希望提升可视化技能的开发者，这篇指南都将为你提供从理论到代码的全面解析。

1 为什么我们需要“着色”的散点图？
2 准备工作：环境与数据
3 步骤一：构建基础散点图
4 步骤二：通过变量着色揭示隐藏信息
5 步骤三：掌握颜色自定义的艺术

为什么我们需要“着色”的散点图？

想象一下，你正在观察一张展示几百辆汽车性能的散点图，横轴是马力，纵轴是每加仑油耗（MPG）。你可以看到两者之间大致呈负相关。但是，这辆车是来自美国、日本还是欧洲？单纯看黑白或单色的散点，我们很难将产地与性能联系起来。

这就是“着色”发挥作用的时候。通过引入第三个变量（通常是名义变量或分类变量），并将其映射到颜色通道，我们可以在同一个二维平面内展示三维信息。这不仅仅是美观上的提升，更是信息密度的飞跃。它帮助我们识别数据聚集的模式，发现不同类别在特征空间中的分布差异。

准备工作：环境与数据

在开始编码之前，我们需要确保环境中安装了 Altair 和 vegadatasets 库。Altair 是基于 Vega-Lite 的声明式可视化库，它的语法简洁直观，让我们能够专注于数据逻辑而非绘图细节。对于示例数据，我们将广泛使用 INLINECODEd65ab143 中的经典数据集，如 Iris（鸢尾花）和 Cars（汽车）数据集，因为它们具有明确的分类特征，非常适合演示着色效果。

步骤一：构建基础散点图

让我们先从最基础的散点图开始。我们将使用经典的 Iris 数据集，它记录了三种不同品种鸢尾花的花萼和花瓣尺寸。

首先，我们需要导入必要的库并加载数据：

import altair as alt
from vega_datasets import data

# 加载 iris 数据集
# 这将返回一个 pandas DataFrame
iris_source = data.iris()

# 查看一下数据的前几行，确保数据加载正确
print(iris_source.head())

现在，让我们创建一个基础的散点图，暂时不考虑分类，只关注 INLINECODE8d637d5b（花萼长度）和 INLINECODE6d308d57（花瓣长度）之间的关系：

# 创建一个基础的 Chart 对象，指定数据源
# 使用 mark_point() 告诉 Altair 我们想要绘制散点图
base_chart = alt.Chart(iris_source).mark_point()

# 编码 X 和 Y 轴
base_scatter = base_chart.encode(
    x=‘sepalLength:Q‘,  # Q 代表定量变量
    y=‘petalLength:Q‘   # Q 代表定量变量
)

# 显示图表
base_scatter.display()

运行这段代码，你会得到一个由灰色圆点组成的图表。你会发现，虽然能看到数据点的分布趋势，似乎有两团甚至三团数据聚集在一起，但我们无法确切地知道哪些点属于哪个品种。这正是我们需要引入颜色的原因。

步骤二：通过变量着色揭示隐藏信息

要在散点图中根据品种着色，我们需要在 INLINECODE06796639 方法中添加 INLINECODE26c8997c 参数。这是 Altair 的强大之处——添加一个新的视觉编码通道非常简单。

我们可以直接将分类列的名称传递给 color 参数：

# 在编码中添加 color 通道
# Altair 会自动检测 ‘species‘ 是一个名义变量，并应用默认的配色方案
colored_scatter = alt.Chart(iris_source).mark_point().encode(
    x=‘sepalLength:Q‘,
    y=‘petalLength:Q‘,
    # 关键步骤：将 species 映射到颜色
    color=‘species:N‘  # N 代表名义变量，虽然 Altair 通常能自动推断
)

colored_scatter.display()

效果分析：

现在，图表瞬间变得清晰了！你可以直观地看到：

Setosa（山鸢尾）：通常花瓣较短，与另外两个品种明显分离。
Versicolor（变色鸢尾） 和 Virginica（维吉尼亚鸢尾）：虽然在一定程度上有所重叠，但在颜色区分下，我们可以看到它们在花萼和花瓣长度上的不同分布区域。

Altair 还非常智能地在右侧自动生成了一个图例，告诉我们每种颜色对应的类别。这种可视化方式不仅让我们看到了“关系”，还让我们看到了“区别”。

步骤三：掌握颜色自定义的艺术

虽然 Altair 的默认配色已经很不错，但在实际工作或报告中，我们可能需要匹配特定的品牌颜色，或者想使用更符合色觉友好原则的配色方案。这就涉及到颜色的自定义。我们通过 alt.Scale() 来实现这一点。

1. 自定义离散类别的颜色映射

假设你对默认颜色不满意，想要指定具体的颜色给特定的类别。例如，你希望 Setosa 是红色的，Versicolor 是绿色的，Virginica 是蓝色的。我们需要使用 INLINECODE6abf7c65（定义数据的类别）和 INLINECODE2f3ee3f1（定义对应的颜色）参数。

让我们换一个数据集，使用 cars 数据集来演示，看看不同产地的汽车性能分布：

cars_source = data.cars()

# 定义我们想要使用的具体颜色列表
custom_colors = [‘#e63946‘, ‘#457b9d‘, ‘#a8dadc‘] # 红色, 深蓝, 浅蓝

# 定义对应的类别
car_origins = [‘USA‘, ‘Europe‘, ‘Japan‘]

# 创建自定义映射的散点图
scatter_custom = alt.Chart(cars_source).mark_point(size=60).encode(
    x=‘Horsepower:Q‘,
    y=‘Miles_per_Gallon:Q‘,
    color=alt.Color(
        ‘Origin:N‘, 
        # 使用 Scale 进行自定义映射
        scale=alt.Scale(
            domain=car_origins, 
            range=custom_colors
        ),
        legend=alt.Legend(title="产地")
    ),
    tooltip=[‘Name‘, ‘Origin‘, ‘Horsepower‘, ‘Miles_per_Gallon‘] # 添加交互提示
).properties(
    width=600,
    height=400,
    title="汽车性能分布：按产地自定义着色"
)

scatter_custom.display()

实用见解： 注意我们在代码中添加了 tooltip。这在数据点重叠时非常有用，只需把鼠标悬停在点上，就能看到具体信息，这是图表交互性的重要一环。

2. 使用预定义的配色方案

如果你不想手动指定每个颜色，但也不喜欢默认方案，Altair（基于 Vega）提供了大量经过专业设计的配色方案。例如，INLINECODEe7de049e、INLINECODE83e66dc4、tableau10 等。对于需要区分多个类别的场景，一个好的配色方案能让图表更具可读性。

“INLINECODE07707932`INLINECODEd4f29fb2interactive() 选择，或者在前端层面进行聚合，但这对于我们的基础着色教程来说已足够——只要记得在处理几十万行数据时，可能需要预先聚合或采样。


## 总结

通过这篇文章，我们深入探讨了如何利用 Altair 这一强大的工具，通过颜色变量增强散点图的表现力。我们学习了： * 如何从简单的双变量分析过渡到包含分类信息的多维可视化。 * 如何通过alt.Scale` 自定义颜色映射，以适应特定的审美或品牌需求。

如何处理连续变量着色，拓展可视化的维度。
以及在实际开发中需要注意的数据类型和交互性细节。

掌握这些技能后，你将能够将枯燥的数据转化为直观、引人入胜的图表，从而更有效地传达分析结果。下次当你面对一个新的数据集时，不妨试着问问自己：“这里的第三个变量是什么？我能否用颜色把它画出来？”

希望这篇指南能对你的数据科学项目有所帮助。继续探索 Altair 的更多功能，你会发现数据可视化的世界充满了无限可能。

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客