如何在 Scala 中高效读取 Parquet 文件：Spark 实战完全指南

2026-02-17 11:48:02 0条评论 3次阅读 0人点赞

你好！作为一名数据处理领域的开发者，我们经常面临需要从海量数据中快速提取信息的挑战。在这个过程中，选择一种高效的文件格式至关重要。Parquet 作为一种列式存储格式，在大数据领域备受推崇，而 Scala 结合 Apache Spark 则是处理这种格式的黄金搭档。

在今天的这篇文章中，我们将深入探讨如何在 Scala 中使用 Apache Spark 来读取 Parquet 文件。无论你是刚入门的新手，还是希望优化代码的老手，这篇文章都将为你提供从环境搭建到性能调优的全方位实战指南。让我们开始吧！

1 为什么要选择 Parquet 和 Scala？
2 第一步：搭建开发环境
3 第二步：初始化 SparkSession
4 第三步：读取 Parquet 文件
5 第四步：探索数据
6 完整示例：一个可运行的最小化案例
7 高级操作：不仅仅是读取
8 实战中的最佳实践与常见陷阱
9 总结

为什么要选择 Parquet 和 Scala？

在正式编码之前，我想先和你分享一下为什么这个组合如此强大。Parquet 不仅仅是一种文件格式，它是一种自描述的、支持压缩的列式存储。这意味着它只读取你需要的列，并且根据数据类型进行了极好的压缩优化。而 Spark 作为一个分布式计算引擎，其原生对 Parquet 的支持可以说是“零摩擦”的。当我们使用 Scala —— Spark 的母语 —— 来操作时，我们能获得最好的类型安全和性能表现。

第一步：搭建开发环境

工欲善其事，必先利其器。为了让我们的代码能够顺利运行，首先需要确保项目中包含了必要的依赖库。我们将使用 SBT（Simple Build Tool）来管理依赖。

配置 build.sbt

请打开你的 build.sbt 文件，并添加以下依赖项。这里我们使用 Spark 的核心模块和 SQL 模块，它们是处理 Parquet 文件的基石：

// 在 build.sbt 中添加以下依赖
libraryDependencies += "org.apache.spark" %% "spark-core" % "3.5.0"
libraryDependencies += "org.apache.spark" %% "spark-sql" % "3.5.0"

> 💡 实用建议：Spark 的版本更新非常快。在上述代码中，我使用了 3.5.0 版本（这是目前的较新版本）。你可以根据生产环境的实际情况调整版本号，但请务必保持 INLINECODE1d067b26 和 INLINECODE43a3ab09 的版本一致，以避免兼容性噩梦。

第二步：初始化 SparkSession

在 Spark 2.0 之后，INLINECODE40b05c6d 成为了我们操作所有数据的统一入口点。你可以把它想象成是一个通往整个 Spark 集群的“控制台”。创建一个 INLINECODEc13729a5 非常简单，让我们看看具体怎么做：

import org.apache.spark.sql.SparkSession

// 创建 SparkSession
val spark = SparkSession.builder
  .appName("MyParquetReader") // 给你的应用起个名字，这在日志查看时很有用
  .master("local[*]")       // local[*] 表示使用本地所有可用的 CPU 核心
  .getOrCreate()            // 获取已存在的 session 或创建一个新的

// 设置日志级别为 WARN，减少控制台输出的干扰
spark.sparkContext.setLogLevel("WARN")

代码解析：

appName：虽然不是强制的，但给应用一个有意义的名字能帮助你在 Spark UI 中快速识别它。
INLINECODE22c45e84：在本地开发时，我们通常使用 INLINECODE846d6fa2。在生产环境中，这个参数通常由集群管理器（如 YARN 或 Kubernetes）接管，你不需要在代码中硬编码它。

第三步：读取 Parquet 文件

万事俱备，现在让我们读取文件。Spark 为我们提供了极其简洁的 API。只需要一行代码，就能将 Parquet 文件加载为一个 DataFrame（分布式数据集）：

// 读取 Parquet 文件
val filePath = "path/to/your/parquet/file" // 替换为你的实际路径
val df = spark.read.parquet(filePath)

深入理解 DataFrame

在这里，INLINECODEd292398f 是一个 INLINECODEbc5fba86 对象。在 Spark 中，DataFrame 是一种带有 Schema（结构信息）的分布式 Row 集合。这意味着 Spark 知道每一列叫什么名字，以及是什么数据类型（Long, String, Timestamp 等）。这种强类型机制是 Spark 能够高效优化执行计划的关键。

第四步：探索数据

数据加载完成后，我们通常需要先“看一眼”数据的模样，以确保读取没有偏差。

展示数据

我们可以使用 show() 方法来查看 DataFrame 的前 20 行数据（默认行数）：

// 显示前 20 行数据，且列宽不会截断
df.show(false) 
// 或者更简洁的
df.show()

打印 Schema

有时候，仅仅看数据是不够的，我们需要知道确切的元数据结构：

// 以树形结构打印 Schema
df.printSchema()

完整示例：一个可运行的最小化案例

让我们把上面的步骤整合起来，写一个完整的 Scala Object。你可以直接复制这段代码到你的 IDE 中运行（前提是你有对应的 Parquet 文件路径，或者你可以先用 write.parquet 生成一个）：

import org.apache.spark.sql.SparkSession

object ParquetReadExample {
  def main(args: Array[String]): Unit = {
    // 1. 初始化 SparkSession
    val spark = SparkSession.builder
      .appName("ParquetReadExample")
      .master("local[*]")
      .getOrCreate()
    
    // 为了演示，如果文件不存在，我们先创建一个模拟的 Parquet 文件
    val tempPath = "temp_parquet_data"
    
    // 创建模拟数据并写入
    import spark.implicits._
    val sampleData = Seq(
      (1, "Alice", 100),
      (2, "Bob", 200),
      (3, "Charlie", 300)
    ).toDF("id", "name", "score")
    
    // 将数据写入 Parquet 格式
    sampleData.write.mode("overwrite").parquet(tempPath)
    println("模拟数据已写入。")

    // 2. 读取 Parquet 文件
    val df = spark.read.parquet(tempPath)

    // 3. 展示数据
    println("读取到的数据内容：")
    df.show()

    // 4. 打印 Schema
    println("数据结构：")
    df.printSchema()

    // 5. 关闭 SparkSession
    spark.stop()
  }
}

高级操作：不仅仅是读取

读取只是第一步。在获取了 DataFrame 之后，我们通常会对其进行一系列的转换操作。让我们看看在实际场景中，我们经常做些什么。

1. SQL 查询：让你的数据会说话

如果你熟悉 SQL，那么你会爱上 Spark SQL。我们可以直接将 DataFrame 注册为临时视图，然后用纯 SQL 语句来查询它：

// 将 DataFrame 注册为临时视图
df.createOrReplaceTempView("users")

// 使用 SQL 查询 score 大于 150 的用户
val result = spark.sql("SELECT name, score FROM users WHERE score > 150 ORDER BY score DESC")
result.show()

2. 复杂的数据筛选

除了 SQL，Scala 的 DSL（领域特定语言）也非常强大。例如，我们可以利用 INLINECODE48a81840 和 INLINECODE9fbabb69 函数进行复杂的逻辑判断：

import org.apache.spark.sql.functions._

// 筛选 id 在特定范围内，或者名字以 ‘A‘ 开头的用户
val filteredDf = df.filter((col("id") > 1) && (col("name").startsWith("A")))
filteredDf.show()

3. 数据类型转换与清洗

在读取老旧的 Parquet 文件时，我们经常遇到类型推断错误的情况。比如，数字被推断为了 Long，但我们实际需要 Int。这时可以使用 withColumn：

// 假设 score 列是 Long 类型，我们将其转换为 Integer 类型（Int）
val cleanDf = df.withColumn("score", col("score").cast("integer"))
cleanDf.printSchema()

4. 处理嵌套数据结构

这是 Parquet 的强项之一。Parquet 非常擅长存储复杂的嵌套结构（比如 JSON 风格的数据）。

假设我们的 Parquet 文件中包含一个嵌套字段 INLINECODEa3f7157b，其中包含 INLINECODE72f33574 和 zip。我们可以使用“点号”语法轻松访问：

// 假设 DataFrame 中有一个 StructType 类型的列 address
val nestedDf = df.select("name", "address.city")
nestedDf.show()

如果需要展开整个嵌套结构，可以使用 explode 函数将数组或结构体炸裂成多行：

// 假设有一个数组列 tags
val explodedDf = df.withColumn("tag", explode(col("tags")))
explodedDf.show()

5. 将处理结果写回磁盘

处理完数据后，我们通常需要将结果保存。这同样非常简单：

val outputPath = "path/to/output/parquet"

// write.mode("overwrite") 防止路径已存在时报错
df.write.mode("overwrite").parquet(outputPath)

实战中的最佳实践与常见陷阱

作为一名经验丰富的开发者，我见过很多因为配置不当而导致的性能问题。这里有几个关键点，希望能帮你少走弯路。

1. 性能优化：谓词下推与列剪裁

这是 Spark 处理 Parquet 的核心优势。

列剪裁：永远不要 INLINECODE0a52ff4a。Parquet 是列式存储，如果你只需要 5 列中的 2 列，显式地 INLINECODE8da084d7 会极大地减少磁盘 I/O。
谓词下推：尽量在读取数据之前就进行过滤。Spark 会自动优化这个过程，直接在文件读取阶段跳过不符合条件的数据块。

    // Spark 会自动把这个过滤下推到读取源
    val optimizedDf = spark.read.parquet(path).filter(col("event_date") === "2023-10-01")

2. 处理分区数据

如果你的数据是按照日期或地区分区的（例如 /data/year=2023/month=10/），读取时务必带上分区列的条件。

// Spark 会只扫描特定文件夹下的数据
val partitionedDf = spark.read.parquet("/data/").filter(col("year") === 2023)

3. 常见错误： corrupt_footer

你可能会遇到 ParquetFileReader: Can‘t not read footer... 或类似的 corrupt footer 错误。这通常是因为：

文件路径指向了一个文件夹而不是具体的文件（但通常 Spark 支持文件夹读取）。
更常见的是，文件损坏或不完整。请检查你的文件是否是由 Spark 完整写入的，或者是否被其他程序修改过。

4. 推理模式 vs 指定模式

默认情况下，Spark 会读取文件的 Footer 来推断 Schema。这在数据量大时会有轻微的性能开销。如果你非常清楚数据的结构，或者 Schema 推断出错（比如将数字推断为 Long 而你想要 Int），你可以手动指定 Schema：

import org.apache.spark.sql.types._

val customSchema = new StructType()
  .add("id", IntegerType)
  .add("name", StringType)
  .add("score", IntegerType)

val dfWithSchema = spark.read.schema(customSchema).parquet(path)

总结

通过这篇文章，我们一起深入了在 Scala 中使用 Apache Spark 读取和处理 Parquet 文件的完整流程。我们不仅掌握了基础的读写操作，还探索了嵌套数据处理、SQL 查询集成以及性能优化等高级技巧。

Parquet 和 Spark 的结合为大数据处理提供了强大的动力。当你开始处理 TB 级别的数据时，你会发现列剪裁和谓词下推带来的巨大性能差异。

接下来你可以尝试：

动手实践：尝试将你自己的 CSV 数据集转换为 Parquet 格式，比较两者的读取速度和文件大小。
探索分区：尝试按日期对数据进行分区存储，并体验查询速度的提升。
深入源码：当你感到舒适时，可以去阅读 Spark 关于 Parquet 这部分的源码，理解它是如何实现“零拷贝”读取的。

希望这篇指南能帮助你更自信地应对日常的数据处理任务！如果有任何问题，欢迎随时交流。祝编码愉快！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客