在 Windows 上以独立模式安装 Apache Spark

2026-02-07 16:34:27 0条评论 2次阅读 0人点赞

Apache Spark 是一个极速的统一分析引擎，用于面向大数据和 Hadoop 等大规模数据集的集群计算，其目标是在多个节点上并行运行程序。它结合了多个栈库，如 SQL 和 Dataframes、GraphX、MLlib 以及 Spark Streaming。

Spark 以 4 种不同的模式运行：

独立模式： 在此模式下，所有进程都在同一个 JVM 进程中运行。
独立集群模式： 在此模式下，它使用 Spark 内置的作业调度框架。
Apache Mesos： 在此模式下，工作节点运行在各种机器上，但驱动程序仅运行在主节点上。
Hadoop YARN： 在此模式下，驱动程序运行在应用程序的主节点内，并由集群上的 YARN 进行管理。

在本文中，我们将探索如何在独立模式下安装 Apache Spark。Apache Spark 是用 Scala 编程语言开发的，并运行在 JVM 上。安装 Java 是使用 Spark 的强制性前提条件之一。那么让我们从安装 Java 开始吧。

安装 Java：

步骤 1： 下载 Java JDK。

!image

步骤 2： 打开下载的 Java SE Development Kit，并按照说明进行安装。

!image!image!image

步骤 3： 在 Windows 搜索栏中输入“环境变量”，打开笔记本上的环境变量设置。

!image

设置 JAVA_HOME 变量：

要设置 JAVA_HOME 变量，请遵循以下步骤：

点击用户变量，添加 JAVAHOME 到 PATH，值为：C:\Program Files\Java\jdk1.8.0261。
点击系统变量，添加 C:\Program Files\Java\jdk1.8.0_261\bin 到 PATH 变量中。
打开命令提示符并键入 “java –version”，它将显示下方内容并验证 Java 安装。

!image

安装 Scala：

要在本地机器上安装 Scala，请遵循以下步骤：

步骤 1： 下载 Scala。
步骤 2： 点击 .exe 文件，并按照说明根据您的需求自定义设置。

!image

步骤 3： 接受协议并点击下一步按钮。

!image

设置环境变量：

在用户变量中，添加 SCALA_HOME 到 PATH，值为 C:\Program Files (x86)\scala。
在系统变量中，添加 C:\Program Files (x86)\scala\bin 到 PATH 变量中。

验证 Scala 安装：

在命令提示符中使用以下命令来验证 Scala 安装：

scala

!image

安装 Spark：

下载 Spark 的预构建版本，并将其解压到 C 盘，例如 C:\Spark。然后点击安装文件并按照说明设置 Spark。

!image !image

设置环境变量：

在用户变量中，添加 SPARK_HOME 到 PATH，值为 C:\spark\spark-2.4.6-bin-hadoop2.7。
在系统变量中，添加 %SPARK_HOME%\bin 到 PATH 变量中。

下载 Windows 实用工具：

如果您希望操作 Hadoop 数据，请按照以下步骤下载 Hadoop 的实用工具：

步骤 1： 下载 winutils.exe 文件。

!image

步骤 2： 将文件复制到 C:\spark\spark-1.6.1-bin-hadoop2.6\bin。
步骤 3： 现在在 cmd 中执行 “spark-shell” 来验证 spark 安装，如下所示：

!image

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

在 Windows 上以独立模式安装 Apache Spark

安装 Java：

设置 JAVA_HOME 变量：

安装 Scala：

设置环境变量：

验证 Scala 安装：

安装 Spark：

设置环境变量：

下载 Windows 实用工具：

相关文章美国1G带宽/1T流量高速vps $17.99/年