在 Windows 上以独立模式安装 Apache Spark

Apache Spark 是一个极速的统一分析引擎,用于面向大数据和 Hadoop 等大规模数据集的集群计算,其目标是在多个节点上并行运行程序。它结合了多个栈库,如 SQL 和 Dataframes、GraphX、MLlib 以及 Spark Streaming。

Spark 以 4 种不同的模式运行:

  • 独立模式: 在此模式下,所有进程都在同一个 JVM 进程中运行。
  • 独立集群模式: 在此模式下,它使用 Spark 内置的作业调度框架。
  • Apache Mesos: 在此模式下,工作节点运行在各种机器上,但驱动程序仅运行在主节点上。
  • Hadoop YARN: 在此模式下,驱动程序运行在应用程序的主节点内,并由集群上的 YARN 进行管理。

在本文中,我们将探索如何在独立模式下安装 Apache Spark。Apache Spark 是用 Scala 编程语言开发的,并运行在 JVM 上。安装 Java 是使用 Spark 的强制性前提条件之一。那么让我们从安装 Java 开始吧。

安装 Java:

步骤 1: 下载 Java JDK。

!image

步骤 2: 打开下载的 Java SE Development Kit,并按照说明进行安装。

!image!image!image

步骤 3: 在 Windows 搜索栏中输入“环境变量”,打开笔记本上的环境变量设置。

!image

设置 JAVA_HOME 变量:

要设置 JAVA_HOME 变量,请遵循以下步骤:

  • 点击用户变量,添加 JAVAHOME 到 PATH,值为:C:\Program Files\Java\jdk1.8.0261。
  • 点击系统变量,添加 C:\Program Files\Java\jdk1.8.0_261\bin 到 PATH 变量中。
  • 打开命令提示符并键入 “java –version”,它将显示下方内容并验证 Java 安装。

!image

安装 Scala:

要在本地机器上安装 Scala,请遵循以下步骤:

步骤 1: 下载 Scala。
步骤 2: 点击 .exe 文件,并按照说明根据您的需求自定义设置。

!image

步骤 3: 接受协议并点击下一步按钮。

!image

设置环境变量:

  • 在用户变量中,添加 SCALA_HOME 到 PATH,值为 C:\Program Files (x86)\scala。
  • 在系统变量中,添加 C:\Program Files (x86)\scala\bin 到 PATH 变量中。

验证 Scala 安装:

在命令提示符中使用以下命令来验证 Scala 安装:

scala

!image

安装 Spark:

下载 Spark 的预构建版本,并将其解压到 C 盘,例如 C:\Spark。然后点击安装文件并按照说明设置 Spark。

!image !image

设置环境变量:

  • 在用户变量中,添加 SPARK_HOME 到 PATH,值为 C:\spark\spark-2.4.6-bin-hadoop2.7。
  • 在系统变量中,添加 %SPARK_HOME%\bin 到 PATH 变量中。

下载 Windows 实用工具:

如果您希望操作 Hadoop 数据,请按照以下步骤下载 Hadoop 的实用工具:

步骤 1: 下载 winutils.exe 文件。

!image

步骤 2: 将文件复制到 C:\spark\spark-1.6.1-bin-hadoop2.6\bin。
步骤 3: 现在在 cmd 中执行 “spark-shell” 来验证 spark 安装,如下所示:

!image

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。如需转载,请注明文章出处豆丁博客和来源网址。https://shluqu.cn/32588.html
点赞
0.00 平均评分 (0% 分数) - 0