Spark安装与配置

Apache Spark是一个开源集群运算框架,最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在运行完工作后将中介资料存放到磁盘中,Spark使用了存储器内运算技术,能在资料尚未写入硬盘时即在存储器内分析运算。Spark在存储器内运行程序的运算速度能做到比Hadoop MapReduce的运算速度快上100倍,即便是运行程序于硬盘时,Spark也能快上10倍速度。Spark允许用户将资料加载至集群存储器,并多次对其进行查询,非常适合用于机器学习算法。

使用Spark需要搭配集群管理员和分布式存储系统。Spark支持独立模式(本地Spark集群)、Hadoop YARN或Apache Mesos的集群管理。在分布式存储方面,Spark可以和 Alluxio, HDFS、 Cassandra、OpenStack Swift和Amazon S3等接口搭载。 Spark也支持伪分布式(pseudo-distributed)本地模式,不过通常只用于开发或测试时以本机文件系统取代分布式存储系统。在这样的情况下,Spark仅在一台机器上使用每个CPU核心运行程序。

在2014年有超过465位贡献者投入Spark开发,让其成为Apache软件基金会以及大数据众多开源项目中最为活跃的项目。

https://www.apache.org/dyn/closer.lua/spark/spark-3.0.1/spark-3.0.1-bin-hadoop2.7.tgz

将安装包上传至Linux系统,这里上传至/root。

$ sudo tar -zxf spark-3.0.1-bin-hadoop2.7.tgz

$ vim /etc/profile

写入如下内容

export SPARK_HOME=/root/spark-3.0.1-bin-hadoop2.7

export PATH=$SPARK_HOME/bin

应用环境变量

$ source /etc/profile

$ cp /root/spark-3.0.1-bin-hadoop2.7/conf/spark-env.sh.template /root/spark-3.0.1-bin-hadoop2.7/conf/spark-env.sh

修改配置文件

$ vim /root/spark-3.0.1-bin-hadoop2.7/conf/spark-env.sh

写入如下内容

export JAVA_HOME=/usr/java/jdk1.8.0_261-amd64

export SPARK_MASTER_IP=localhost

export SPARK_MASTER_PORT=7077

注:JAVA_HOME作为安装服务器java路径。

$ cp /root/spark-3.0.1-bin-hadoop2.7/conf/slaves.template /root/spark-3.0.1-bin-hadoop2.7/conf/slaves

修改配置文件

$ vim /root/spark-3.0.1-bin-hadoop2.7/conf/slaves

写入如下内容,在文件中添加子节点所在位置(Worker节点)

localhost

进入Spark的sbin目录下

$ cd /root/spark-3.0.1-bin-hadoop2.7/sbin

启动spark master服务

$ start-master.sh

启动spark slave服务

$ start-slave.sh spark://localhost:7077

查看运行进程情况

$ jps

查看到有Master和Worker进程即为启动成功。

举报