Apache Spark 是一个极速的统一分析引擎,用于面向大数据和 Hadoop 等大规模数据集的集群计算,其目标是在多个节点上并行运行程序。它结合了多个栈库,如 SQL 和 Dataframes、GraphX、MLlib 以及 Spark Streaming。
Spark 以 4 种不同的模式运行:
- 独立模式: 在此模式下,所有进程都在同一个 JVM 进程中运行。
- 独立集群模式: 在此模式下,它使用 Spark 内置的作业调度框架。
- Apache Mesos: 在此模式下,工作节点运行在各种机器上,但驱动程序仅运行在主节点上。
- Hadoop YARN: 在此模式下,驱动程序运行在应用程序的主节点内,并由集群上的 YARN 进行管理。
在本文中,我们将探索如何在独立模式下安装 Apache Spark。Apache Spark 是用 Scala 编程语言开发的,并运行在 JVM 上。安装 Java 是使用 Spark 的强制性前提条件之一。那么让我们从安装 Java 开始吧。
安装 Java:
步骤 1: 下载 Java JDK。
步骤 2: 打开下载的 Java SE Development Kit,并按照说明进行安装。
步骤 3: 在 Windows 搜索栏中输入“环境变量”,打开笔记本上的环境变量设置。
设置 JAVA_HOME 变量:
要设置 JAVA_HOME 变量,请遵循以下步骤:
- 点击用户变量,添加 JAVAHOME 到 PATH,值为:C:\Program Files\Java\jdk1.8.0261。
- 点击系统变量,添加 C:\Program Files\Java\jdk1.8.0_261\bin 到 PATH 变量中。
- 打开命令提示符并键入 “java –version”,它将显示下方内容并验证 Java 安装。
安装 Scala:
要在本地机器上安装 Scala,请遵循以下步骤:
步骤 1: 下载 Scala。
步骤 2: 点击 .exe 文件,并按照说明根据您的需求自定义设置。
步骤 3: 接受协议并点击下一步按钮。
设置环境变量:
- 在用户变量中,添加 SCALA_HOME 到 PATH,值为 C:\Program Files (x86)\scala。
- 在系统变量中,添加 C:\Program Files (x86)\scala\bin 到 PATH 变量中。
验证 Scala 安装:
在命令提示符中使用以下命令来验证 Scala 安装:
scala
安装 Spark:
下载 Spark 的预构建版本,并将其解压到 C 盘,例如 C:\Spark。然后点击安装文件并按照说明设置 Spark。
设置环境变量:
- 在用户变量中,添加 SPARK_HOME 到 PATH,值为 C:\spark\spark-2.4.6-bin-hadoop2.7。
- 在系统变量中,添加 %SPARK_HOME%\bin 到 PATH 变量中。
下载 Windows 实用工具:
如果您希望操作 Hadoop 数据,请按照以下步骤下载 Hadoop 的实用工具:
步骤 1: 下载 winutils.exe 文件。
步骤 2: 将文件复制到 C:\spark\spark-1.6.1-bin-hadoop2.6\bin。
步骤 3: 现在在 cmd 中执行 “spark-shell” 来验证 spark 安装,如下所示: