如何高效地在 Polars 中将字符串转换为日期或日期时间

2026-02-04 10:03:40 0条评论 89次阅读 0人点赞

在处理数据时，尤其是当我们面对从 CSV 文件、数据库或 API 获取的原始数据时，日期和时间信息往往被存储为纯字符串。这种字符串格式虽然便于人类阅读，但对于计算机来说却难以直接进行时间序列分析或计算。如果你正在使用 Polars——这个用 Rust 编写、以极致性能和内存效率著称的 DataFrame 库——那么掌握如何将这些字符串精准地转换为 Date 或 Datetime 对象，就是你迈向高效数据分析的第一步。

在今天的文章中，我们将深入探讨在 Polars 中处理日期转换的各种技巧。我们将从基础概念入手，通过丰富的代码示例，手把手教你如何处理各种复杂的日期格式，避免常见的陷阱，并确保你的数据分析管道既快速又稳健。

1 为什么选择 Polars？
2 准备工作：理解日期格式
3 场景一：基础转换——处理标准 ISO 格式
4 场景二：自定义格式——处理非标准字符串
5 场景三：字符串转 Datetime（包含时间）
6 最佳实践与性能优化
7 总结与展望

为什么选择 Polars？

在我们开始编写代码之前，有必要简要了解一下为什么 Polars 在处理时间序列数据时如此强大。与 Pandas 等传统库相比，Polars 采用了惰性求值和多线程执行策略。这意味着当你对日期列进行转换或过滤时，Polars 会自动优化你的查询计划，利用现代 CPU 的多核特性来加速处理。

对于包含数百万行时间戳数据集，仅仅将字符串转换为正确的类型，就能极大地减少内存占用（因为 Polars 的日期类型比字符串占用更少的空间），并为后续的高性能操作（如按时间分组或滚动窗口计算）奠定基础。我们可以通过简单的 pip 命令安装它：

pip install polars

准备工作：理解日期格式

在深入代码之前，让我们先达成一个共识：日期的字符串表示形式多种多样。在 Polars 中，区分这三种类型至关重要：

Date（日期）: 仅包含年、月、日（例如 2024-09-05）。
Datetime（日期时间）: 包含日期以及具体的时间戳，甚至可能包含时区信息（例如 2024-09-05 14:30:00）。
String（字符串）: 我们需要转换的原始文本数据。

Polars 遵循标准的 INLINECODEbcbfe4e9 库格式规则（类似于 C 的 INLINECODE8ccf7a3d），这意味着我们需要使用特定的占位符来解析字符串，例如 INLINECODEb3911899 代表 4 位年份，INLINECODE9957c3cd 代表月份，%d 代表日期。

场景一：基础转换——处理标准 ISO 格式

让我们从最简单的场景开始。假设我们的数据已经是标准的 ISO 8601 格式（即 INLINECODE592393e1）。我们可以直接使用 Polars 的 INLINECODEc81efdde 方法，甚至不需要指定格式，Polars 足够智能，可以尝试自动推断。

import polars as pl

# 示例数据：包含 ID 和标准格式的日期字符串
data = {
    "id": [1, 2, 3],
    "date_str": ["2024-09-05", "2023-12-25", "2022-08-15"],
    "datetime_str": ["2024-09-05 14:30:00", "2023-12-25 18:45:00", "2022-08-15 09:15:00"]
}

# 创建 DataFramedf = pl.DataFrame(data)

print("--- 转换前 ---")
print(df.schema)  # 我们可以看到 date_str 此时是 String 类型

# 使用 with_columns 进行转换
# 这里的 pl.col("date_str").str.to_date() 会尝试自动解析格式
df_with_date = df.with_columns(
    pl.col("date_str").str.to_date().alias("parsed_date")
)

print("
--- 转换后 ---")
print(df_with_date.schema)
print(df_with_date)

代码解读

with_columns: 这是 Polars 中用于添加或替换列的标准方法，它不会修改原始 DataFrame（除非你重新赋值），非常适合构建数据处理链。
INLINECODEc3755a8c: 我们给新列起了一个名字，方便后续引用。你会在输出中看到，INLINECODEc03edac0 列的数据类型已经变成了 date，而不再是一串文本。

场景二：自定义格式——处理非标准字符串

现实世界的数据往往很混乱。如果你的日期格式是 INLINECODEbca44e5a (DD/MM/YYYY) 或者 INLINECODEd84b7730，自动推断可能会失败或产生错误的结果。这时，我们必须显式地指定 format 参数。这是初学者最容易踩坑的地方。

示例：处理 "DD/MM/YYYY"

import polars as pl

# 模拟混乱的现实数据
data_custom = {
    "event": ["Login", "Purchase", "Logout"],
    "timestamp_str": ["05/09/2024", "25/12/2023", "15/08/2022"]  # 注意：这里格式是 日/月/年
}

df_custom = pl.DataFrame(data_custom)

print("--- 尝试自动转换 (可能出错或不符合预期) ---")
# 如果不指定格式，Polars 可能会按照 ISO (YYYY-MM-DD) 解析，导致报错或解析错误
try:
    # 注意："05/09/2024" 并不是标准的 YYYY-MM-DD，直接转通常需要 format 参数
    # 如果 Polars 无法自动识别，它会抛出错误或者解析出错误的日期
    pass 
except Exception as e:
    print(e)

print("
--- 使用正确的 format 参数进行转换 ---")

# 使用 format 参数严格按照 "%d/%m/%Y" 进行解析
df_converted = df_custom.with_columns(
    pl.col("timestamp_str")
    .str.to_date(format="%d/%m/%Y") # 关键：明确指定格式
    .alias("event_date")
)

print(df_converted)

常见占位符速查表

为了让你能应对各种情况，这里列出了一些最常用的格式占位符：

%Y: 4 位年份 (例如 2024)
%y: 2 位年份 (例如 24 代表 2024)
%m: 月份，数字表示 (01-12)
%b: 月份缩写 (例如 Jan, Feb)
%B: 月份全称 (例如 January, February)
%d: 日期，数字表示 (01-31)
%H: 小时 (24小时制, 00-23)
%M: 分钟 (00-59)
%S: 秒 (00-59)

示例：处理复杂的文本格式

让我们来看一个更棘手的例子："September 5, 2024"。

data_complex = {
    "description": ["Project Start", "Project End"],
    "date_text": ["September 5, 2024", "December 25, 2023"]
}

df_complex = pl.DataFrame(data_complex)

# 格式说明：%B (月份全称) %d (日期), %Y (年份)
df_complex = df_complex.with_columns(
    pl.col("date_text")
    .str.to_date(format="%B %d, %Y")
    .alias("start_date")
)

print(df_complex)

在这个例子中，如果我们不指定 format="%B %d, %Y"，Polars 根本无法知道 "September" 是指 9 月。

场景三：字符串转 Datetime（包含时间）

如果数据中包含具体的时间点（如 INLINECODE2e61e373），我们需要使用 INLINECODE314e9a2a 方法。它的工作原理与 to_date 类似，但会保留小时、分钟和秒的信息。

import polars as pl

data_time = {
    "log_id": [101, 102],
    "raw_time": ["2024-09-05 14:30:00", "2024-09-05 08:15:30"]
}

df_time = pl.DataFrame(data_time)

# 转换为 Datetime 类型
df_time = df_time.with_columns(
    pl.col("raw_time")
    .str.to_datetime(format="%Y-%m-%d %H:%M:%S")
    .alias("logged_at")
)

print(df_time)
print(f"列的数据类型: {df_time[‘logged_at‘].dtype}")

最佳实践与性能优化

在实际的数据工程中，我们不仅要让代码跑通，还要让它跑得快且稳健。以下是我们总结的一些实战经验：

1. 尽可能在读取时解析

如果你使用 INLINECODE3b08ef2f 读取数据，可以利用 INLINECODEd217e301 参数。Polars 会在读取文件的第一步就尝试转换日期。这比先读取字符串再转换要快得多，因为它避免了额外的中间步骤和内存分配。

# 推荐：在读取 CSV 时直接尝试解析日期
df = pl.read_csv("data.csv", try_parse_dates=True)

2. 处理解析错误

当数据量很大时，难免会有几行数据的格式是错误的（比如空值或乱码）。默认情况下，如果解析失败，Polars 会报错并停止程序。为了更健壮，我们可以使用 INLINECODE6f3d21df 参数。当遇到无法解析的字符串时，它会将其设为 INLINECODEa998a5bf（空值），而不是让程序崩溃。

data_with_errors = {
    "dates": ["2024-01-01", "invalid_date", "2024-01-03"]
}
df_err = pl.DataFrame(data_with_errors)

# 使用 strict=False 容错处理
df_clean = df_err.with_columns(
    pl.col("dates").str.to_date(strict=False).alias("safe_date")
)

print(df_clean)
# 你会看到第二行的 safe_date 变成了 null

3. 时区处理

在进行全球业务的数据分析时，时区至关重要。Polars 支持在转换时直接指定时区。例如，我们将 UTC 时间转换为纽约时间：

data_utc = ["2024-09-05 14:00:00"]
df_tz = pl.DataFrame({"utc_time": data_utc})

# 转换时指定时区
df_tz = df_tz.with_columns(
    pl.col("utc_time")
    .str.to_datetime(format="%Y-%m-%d %H:%M:%S", time_zone="UTC")
    .alias("utc_parsed")
)

print(df_tz)

总结与展望

通过这篇文章，我们从零开始，学习了如何利用 Polars 强大的字符串处理能力，将杂乱的文本数据转换为结构化的日期和时间对象。我们涵盖了：

标准格式转换：利用 Polars 的智能推断。
自定义格式转换：使用 format 参数精确控制解析逻辑。
容错处理：使用 strict=False 防止脏数据导致任务失败。
最佳实践：在读取数据时解析和正确处理时区。

掌握这些技能后，你就可以自信地清洗时间序列数据，为后续的可视化、金融分析或用户行为分析打下坚实的基础。下一次当你面对一堆杂乱无章的 CSV 日期数据时，你知道该如何优雅地应对了——打开你的 Python 编辑器，让 Polars 来帮你完成繁重的工作吧！

希望这篇指南能帮助你更高效地处理数据。如果你在实操中遇到其他特殊的日期格式，不妨查阅 Polars 的官方文档，那里有关于格式化占位符的完整列表。祝你编码愉快！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客