如何将列表作为行追加到 Pandas DataFrame：全面指南与最佳实践

2026-02-04 19:22:12 0条评论 74次阅读 0人点赞

在数据分析和处理的过程中，我们经常需要动态地向数据集中添加新的观察数据。作为一个 Python 数据分析师或开发者，你可能会经常遇到这样一个场景：你已经整理好了一个包含新数据的列表，现在需要将其作为一行追加到现有的 Pandas DataFrame 中。虽然这看起来是一个简单的操作，但根据不同的数据结构、性能要求以及代码的可读性需求，有多种实现方式可以达到目的。

在这篇文章中，我们将深入探讨在 Python 中将列表作为行追加到 Pandas DataFrame 的几种主要方法。我们将不仅关注“怎么做”，还会解释“为什么这样做”，并分享一些在实际工程开发中的最佳实践。

> 前置知识：在开始之前，建议你对 Pandas DataFrame 的基本概念有一定的了解，这将帮助你更好地理解后续的操作。

1 准备工作：构建基础数据
2 方法 1：使用 loc[] 进行动态追加
3 方法 2：使用 iloc[] 处理特定位置（更新模式）
4 方法 3：使用 concat() 函数（现代推荐的追加方式）
5 深入探讨：进阶场景与最佳实践
6 总结与建议

准备工作：构建基础数据

首先，让我们创建一个标准的 DataFrame 作为演示的基础。这将帮助我们清晰地看到每次操作后数据的变化。

假设我们正在管理一个简单的用户信息表，包含姓名、年龄、城市和国家。

import pandas as pd
import numpy as np

# 定义原始数据列表
data = [
    [‘Satyam‘, 21, ‘Patna‘, ‘India‘],
    [‘Anurag‘, 23, ‘Delhi‘, ‘India‘],
    [‘Shubham‘, 27, ‘Coimbatore‘, ‘India‘]
]

# 创建 DataFrame，并指定列名
df = pd.DataFrame(data, columns=[‘Name‘, ‘Age‘, ‘City‘, ‘Country‘])

print("初始 DataFrame:")
print(df)

输出：

     Name  Age       City Country
0  Satyam   21      Patna   India
1  Anurag   23      Delhi   India
2  Shubham   27  Coimbatore   India

现在，我们拥有了一个包含 3 行数据的 DataFrame。接下来，我们将演示如何将 new_row = [‘Saurabh‘, 23, ‘Delhi‘, ‘India‘] 这个列表追加进去。

—

方法 1：使用 loc[] 进行动态追加

loc[] 是 Pandas 中基于标签索引的核心方法。虽然它主要用于选择数据，但利用其赋值特性，我们可以非常直观地在 DataFrame 的末尾“挂载”新行。

原理分析

DataFrame 的索引（Index）是行级的唯一标识。当我们使用 df.loc[len(df)] = new_row 时，实际上是在做两件事：

计算位置：INLINECODE53083adf 返回当前的行数。因为索引是从 0 开始的，所以 INLINECODE06639499 正好等于当前最大索引 + 1（在索引连续的情况下），即下一个可用的索引位置。
插入/赋值：loc 会寻找这个索引。如果存在，则覆盖；如果不存在（就像这里），Pandas 会自动扩展 DataFrame 并添加这一行。

代码实现

让我们使用 loc[] 将新用户数据追加到我们的表格中。

# 待追加的新行数据
new_row = [‘Saurabh‘, 23, ‘Delhi‘, ‘India‘]

# 获取当前 DataFrame 的长度作为新行的索引
# 这里利用了 len(df) 刚好等于下一个新索引的特性
df.loc[len(df)] = new_row

print("使用 loc[] 追加后的 DataFrame:")
print(df)

输出：

      Name  Age       City Country
0   Satyam   21      Patna   India
1   Anurag   23      Delhi   India
2  Shubham   27  Coimbatore   India
3  Saurabh   23      Delhi   India

实战技巧与注意事项

这种方法非常流行，因为它语法简洁，且不需要引入额外的函数。但是，作为专业的开发者，你需要了解它的优缺点：

优点：代码可读性高，不需要创建新的 DataFrame 对象（属于原地操作的一种变体，虽然 Pandas 内部可能仍涉及内存优化）。
局限性：如果你手动设置了非连续的索引（例如索引是 0, 5, 10），len(df) 可能不再对应下一个有效的空索引，这可能会导致意外覆盖或报错。因此，这种方法最适用于索引连续或默认自增的情况。

—

方法 2：使用 iloc[] 处理特定位置（更新模式）

虽然你问的是“追加”，但在数据处理中，了解如何使用 iloc[] 修改特定行同样重要，因为它经常与追加操作配合使用（例如：先追加再修改，或者更新某条记录）。

原理分析

INLINECODE0761f8e7 是基于整数位置索引的。INLINECODE78ca0ebf 指的是 DataFrame 中的第 3 行（因为 Python 从 0 开始计数）。与 INLINECODE333b4a5b 不同，INLINECODEc52d0648 必须引用已存在的物理行位置。你不能直接使用 INLINECODE7fe7b548 来“追加”一行到不存在的第 N 行，它会报 INLINECODEf90080b3。

代码实现：更新现有行

让我们看看如何修改已经存在的行数据。假设我们发现了索引为 2 的用户信息录入错误，需要用新列表替换它。

# 创建一个新副本以演示修改
df_modified = df.copy()

# 用于替换的新数据
replacement_row = [‘Ujjawal‘, 22, ‘Fathua‘, ‘India‘]

# 使用 iloc 替换第 3 行（索引位置 2）的数据
# 注意：这不会增加行数，而是覆盖了原位置的数据
df_modified.iloc[2] = replacement_row

print("使用 iloc[] 修改索引位置 2 后的 DataFrame:")
print(df_modified)

输出：

      Name  Age       City Country
0   Satyam   21      Patna   India
1   Anurag   23      Delhi   India
2  Ujjawal   22     Fathua   India  <-- 索引 2 的数据已完全改变
3  Saurabh   23      Delhi   India

> 重要提示：初学者常犯的错误是尝试使用 INLINECODEfe605deb 来追加数据。这是行不通的。请记住，INLINECODE75cec09e 仅用于访问和修改已存在的位置。

—

方法 3：使用 concat() 函数（现代推荐的追加方式）

在 Pandas 的早期版本中，INLINECODE56a682e7 方法非常流行。然而，从 Pandas 1.4.0 版本开始，官方文档已经将 INLINECODEdead33d8 标记为“弃用”，并强烈推荐使用 INLINECODEa0239c27。为什么？因为 INLINECODE55475e95 拥有更好的性能，更通用的功能（不仅可以拼接行，还可以拼接列），且更符合 Pandas 的设计哲学。

为什么放弃 append()？

你可能会在网上看到很多使用 df.append() 的教程。虽然它很方便，但每次调用都会创建一个新的 DataFrame 对象，这在循环中使用时会导致极大的性能开销（二次方级的时间复杂度）。

代码实现：使用 concat

要将一个列表作为行追加，我们首先需要将该列表转换为 DataFrame，然后使用 pd.concat() 将其与原 DataFrame 在垂直方向（axis=0）上合并。

# 待追加的数据
new_data_list = ["Manjeet", 25, "Delhi", "India"]

# 步骤 1: 将列表转换为 DataFrame
# 注意：列名必须与原 DataFrame 保持一致
new_df = pd.DataFrame([new_data_list], columns=[‘Name‘, ‘Age‘, ‘City‘, ‘Country‘])

# 步骤 2: 使用 pd.concat 进行合并
# ignore_index=True 是关键，它会重置合并后的索引（0, 1, 2, 3...），避免索引冲突
result_df = pd.concat([df, new_df], ignore_index=True)

print("使用 pd.concat() 追加后的 DataFrame:")
print(result_df)

输出：

      Name  Age       City Country
0   Satyam   21      Patna   India
1   Anurag   23      Delhi   India
2  Shubham   27  Coimbatore   India
3  Saurabh   23      Delhi   India
4  Manjeet   25      Delhi   India  <-- 新追加的行

关键参数解析

ignore_index=True：这是最常用的设置。如果不设置这个，新行会保留其原 DataFrame 的索引（这里是 0），导致结果中存在两个索引为 0 的行，这在数据分析中可能引发歧义。设置为 True 后，Pandas 会自动生成一个新的连续索引。
INLINECODE73ffcbab：默认值，表示纵向拼接（增加行）。如果设置为 INLINECODE5fee2f02，则会尝试横向拼接（增加列）。

—

深入探讨：进阶场景与最佳实践

在实际工作中，仅仅知道语法是不够的。我们需要处理更复杂的数据结构和更严苛的性能要求。

1. 处理字典和类列表对象

很多时候，你的新数据可能不是纯粹的列表，而是字典。Pandas 非常智能，可以自动处理这种情况。

# 数据以字典形式存在，键名与 DataFrame 列名匹配
new_row_dict = {
    ‘Name‘: ‘Rahul‘, 
    ‘Age‘: 30, 
    ‘City‘: ‘Mumbai‘, 
    ‘Country‘: ‘India‘
}

# 方法 A: 使用 loc (自动对齐列名)
df.loc[len(df)] = new_row_dict

# 方法 B: 使用 concat
new_df_from_dict = pd.DataFrame([new_row_dict])
df = pd.concat([df, new_df_from_dict], ignore_index=True)

见解：如果你的数据源是 JSON 或 API 响应，通常以字典形式存在，直接使用 loc 赋值字典非常方便，因为它会自动匹配列名，无需你手动按顺序排列列表中的元素。

2. 性能优化：避免循环追加

这是新手最容易遇到的陷阱。请千万不要在 INLINECODE2f0b3b0b 循环中反复调用 INLINECODE552fa5f9 或 pd.concat()。

错误的示范：

# 这是一个极度低效的写法！
data_lists = [[‘A‘, 1], [‘B‘, 2], [‘C‘, 3]] # 假设有很多数据
for row in data_lists:
    df = pd.concat([df, pd.DataFrame([row], columns=df.columns)]) # 每次都重建整个 DataFrame

这种写法的时间复杂度是 $O(N^2)$，处理几千行数据就会导致明显的卡顿。

正确的做法（先收集，后合并）：

# 1. 先将所有行收集到一个列表中
rows_to_append = []
for i in range(1000):
    rows_to_append.append([f‘User{i}‘, i, ‘City‘, ‘Country‘])

# 2. 一次性创建新的 DataFrame
new_rows_df = pd.DataFrame(rows_to_append, columns=[‘Name‘, ‘Age‘, ‘City‘, ‘Country‘])

# 3. 一次性合并
df_final = pd.concat([df, new_rows_df], ignore_index=True)

这将把复杂度降低到接近线性，处理数万行数据也毫无压力。

3. 处理缺失数据

如果你追加的列表比 DataFrame 的列数少，Pandas 会怎么处理？

# 这个列表缺少 ‘Country‘ 列的数据
incomplete_row = [‘Vijay‘, 28, ‘Bangalore‘] 

# 使用 loc 追加
df.loc[len(df)] = incomplete_row

结果：DataFrame 会在缺少的位置（即 ‘Country‘ 列）填充 NaN（Not a Number），而在列表没有对应值的位置正常填充。了解这一行为有助于你在数据清洗阶段进行预处理。

—

总结与建议

在本文中，我们探讨了三种将列表追加到 Pandas DataFrame 的核心方法，并深入分析了它们的底层逻辑。

使用 loc[]：最适合在脚本中添加单行数据。代码简洁，读起来像英语一样自然。但要注意索引必须是连续的或末尾的。
使用 iloc[]：主要用于修改现有特定位置的数据，而不是追加。了解它能帮助你更好地区分“位置索引”和“标签索引”。
使用 INLINECODE83ce6d87：这是最通用、最现代的方法。无论是追加一行还是合并一百万行数据集，它都是最稳定的选择。虽然语法比 INLINECODE608bbcd0 稍微繁琐一点（需要先构建 DataFrame），但它提供了 ignore_index 等强大的功能，且是官方推荐的最佳实践。

给开发者的最终建议：

如果你只是在写一个小脚本快速处理数据，INLINECODE7b1fe77c 是最快的选择。但如果你正在构建一个生产环境的应用程序，或者需要处理大量数据，请务必将数据收集起来，使用 INLINECODE7b24f538 进行批量操作。这将使你的代码更加健壮、高效。

希望这篇文章能帮助你更好地掌握 Pandas 的数据操作技巧！现在，当你再次面对需要追加数据的需求时，你应该能自信地选择最合适的工具了。

> – Pandas Concatenation (Merge, Join, Concat)

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

如何将列表作为行追加到 Pandas DataFrame：全面指南与最佳实践

准备工作：构建基础数据

方法 1：使用 loc[] 进行动态追加

原理分析

代码实现

实战技巧与注意事项

方法 2：使用 iloc[] 处理特定位置（更新模式）

原理分析

代码实现：更新现有行

方法 3：使用 concat() 函数（现代推荐的追加方式）

为什么放弃 append()？

代码实现：使用 concat

关键参数解析

深入探讨：进阶场景与最佳实践

1. 处理字典和类列表对象

2. 性能优化：避免循环追加

3. 处理缺失数据

总结与建议

相关文章美国1G带宽/1T流量高速vps $17.99/年