Pandas 是一个开源的 Python 库,旨在让我们能够以简单、直观的方式处理关系型或带标签的数据。它为我们提供了强大的数据结构,以及大量用于操作数值数据和时间序列的操作。此外,Pandas 还提供了高效清洗、处理和分析数据的工具。它是 Python 中最受欢迎的数据分析库之一,主要支持以下两种核心数据结构:
Series(序列)
Series 是一个一维的、类似于数组的对象,它可以存储任何数据类型,例如整数、字符串、浮点数,甚至是 Python 对象。它自带标签(称为索引)。
语法
> pandas.Series(data=None, index=None, dtype=None, name=None, copy=False)
参数:
- data: 类似数组、字典或标量值 – 输入数据。
- index (可选): 轴的标签。
- dtype (可选): Series 的数据类型。
- name (可选): Series 的名称。
- copy (布尔值): 如果为 True,则复制数据。
返回值: 一个 pandas.Series 对象,包含提供的数据及其关联的索引。
示例 1: 存储字符数据类型的 Series。
Python
CODEBLOCK_76857f38
输出结果
!OutputSeries Output
原理解析: 我们将列表 a 传递给 pd.Series(a),它将其转换为一个 Series(一种类似列的结构),其中每个项目都会获得一个从 0 开始的默认索引,这是由 Pandas 自动分配的。
示例 2: 存储整数数据类型的 Series。
Python
CODEBLOCK_b4dd2975
输出结果
!OutputSeries output
原理解析: 我们将列表 a 传递给 pd.Series a,它将其转换为一个 Series(一种类似列的结构),其中每个数字都会获得一个从 0 开始的默认索引,这是由 Pandas 自动分配的。
示例 3: 存储字典的 Series。
Python
CODEBLOCK_7bc1b6ed
输出结果
!OutputSeries Output
原理解析: 我们将字典 a 传递给 pd.Series(a),将键转换为索引标签,将值转换为数据,从而创建一个带标签的 Series,便于我们访问。
DataFrame(数据框)
DataFrame 是一个二维的、大小可变的、异构的表格型数据结构,带有标记的行和列,类似于电子表格或 SQL 表。DataFrame 中的每一列都是一个 Pandas Series,这让我们可以在一个表中处理多种类型的数据。
语法:
> pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
参数:
- data: 各种形式的输入数据(例如,列表、字典、ndarray、Series,或另一个 DataFrame)。
- index( 可选): 行的标签。
- columns(可选): 列的标签。
- dtype(可选): 所有列的可选数据类型。
- copy(可选): 布尔值;是否复制数据。
返回值: 一个 pandas.DataFrame 对象,表示二维的带标签数据结构。
示例 1: 从列表创建 DataFrame
Python
CODEBLOCK_51476950
输出结果
!OutputDataFrame Output
原理解析: 我们将列表 a 传递给 pd.DataFrame(a, columns=[‘Tech‘]),它将其转换为一个只有一列、名为 ‘Tech‘ 的 DataFrame。每个列表项成为一行,Pandas 自动分配一个从 0 开始的默认整数索引。
示例 2: 从字典创建 DataFrame
Python
CODEBLOCK_1305bfe6
输出结果
!OutputDataFrame Output
原理解析: 我们将字典 a 传递给 pd.DataFrame(a),它将其转换为一个 DataFrame,其中字典的键变成列名,值(列表)变成列数据。Pandas 为行分配了一个从 0 开始的默认整数索引。
示例 3: 在 DataFrame 中选择列和行
Python