Apache Spark,一个开源的分布式计算系统,已经彻底改变了大数据处理和分析的世界。它提供闪电般的数据处理功能,使其成为数据工程师和数据科学家的首选。
在 Fedora 38 上安装 Apache Spark
第 1 步。在 Fedora 38 上安装 Apache Spark 之前,重要的是要确保我们的系统是最新的软件包。这将确保我们可以访问最新的功能和错误修复,并且我们可以毫无问题地安装 Apache Spark:
sudo dnf update
第 2 步。安装爪哇。
Apache Spark依靠Java开发工具包(JDK)来实现其功能。要安装 OpenJDK 11,请执行以下命令:
sudo dnf install java-11-openjdk
现在,通过检查 Java 版本来验证安装:
java -version
第 3 步。在 Fedora 38 上安装 Apache Spark。
访问 Apache Spark 官方网站并选择最适合您要求的 Spark 版本。对于大多数用户来说,Hadoop的预构建版本是合适的:
wget https://www.apache.org/dyn/closer.lua/spark/spark-3.5.0/spark-3.5.0-bin-hadoop3.tgz
After downloading Spark, extract the archive using the following command:
tar -xvf spark-3.5.0-bin-hadoop3.tgz
接下来,将解压缩的目录移动到该目录:/opt
mv spark-3.5.0-bin-hadoop3 /opt/spark
然后,添加一个用户来运行 Spark,然后设置 Spark 目录的所有权:
useradd spark chown -R spark:spark /opt/spark
第 4 步。创建系统服务。
现在我们创建一个服务文件来管理 Spark master 服务:systemd
nano /etc/systemd/system/spark-master.service
添加以下文件:
[Unit] Description=Apache Spark Master After=network.target [Service] Type=forking User=spark Group=spark ExecStart=/opt/spark/sbin/start-master.sh ExecStop=/opt/spark/sbin/stop-master.sh [Install] WantedBy=multi-user.target
保存并关闭文件,然后为 Spark 从属服务器创建一个服务文件:
nano /etc/systemd/system/spark-slave.service
添加以下配置。
[Unit] Description=Apache Spark Slave After=network.target [Service] Type=forking User=spark Group=spark ExecStart=/opt/spark/sbin/start-slave.sh spark://your-IP-server:7077 ExecStop=/opt/spark/sbin/stop-slave.sh [Install] WantedBy=multi-user.target
保存并关闭文件,然后重新加载守护程序。systemd
sudo systemctl daemon-reload sudo systemctl start spark-master sudo systemctl enable spark-master
第5步。配置防火墙。
首先,您需要确定Apache Spark用于其各种组件的端口。通常,您应该打开的基本端口是:
- Spark Master Web UI:端口 8080(或已配置的端口)
- Spark 主端口:7077(或已配置的端口)
- Spark 工作线程端口:指定范围内的随机端口(默认值为 1024-65535)
若要打开 Spark Master 和 Web UI 端口(例如 8080 和 7077),可以使用以下命令:firewall-cmd
sudo firewall-cmd --zone=public --add-port=8080/tcp --permanent sudo firewall-cmd --zone=public --add-port=7077/tcp --permanent
After adding the necessary rules, you should reload the firewall for the changes to take effect:
sudo firewall-cmd --reload
第 6 步。访问 Apache Spark Web 界面。
若要验证 Spark 是否已正确安装以及群集是否正在运行,现在请打开 Web 浏览器并通过输入以下 URL 访问 Spark Web UI:
http://your-IP-address:8080
应在以下屏幕上看到 Spark 仪表板:
感谢您使用本教程在 Fedora 38 系统上安装 Apache Spark。有关其他帮助或有用信息,我们建议您查看 Spark 官方网站。