Spark环境搭建（保姆级教程）-程序员宅基地

技术标签：大数据环境搭建 spark Spark环境搭建 Spark搭建 pyspark环境配置 # Spark

一、环境准备

虚拟机安装

虚拟机软件：VMware

操作系统：Ubuntu1804

参考：https://blog.csdn.net/tangyi2008/article/details/120311293
JDK1.8
Hadoop安装

版本：2.7.7

参考：https://blog.csdn.net/tangyi2008/article/details/121908766

二、Spark环境搭建

1. Spark部署方式

Local模式：单机模式
集群模式：
- Standalone模式：使用Spark自带的简单集群管理器
- YARN模式：使用YARN作为集群管理器
- Mesos模式：使用Mesos作为集群管理器
- Kubernetes模式：实验阶段

2. 安装spark

1) 下载Spark

Spark官网的Download界面https://spark.apache.org/downloads.html可选版本较少，比较这里打开的网页，只有三个版本可选。

在这里插入图片描述

可以在下载页面的下方进入它的release archives：https://archive.apache.org/dist/spark/ 选择想要的版本。

关于版本的选择

这里以2.4.8版本为例，我们下载的安装文件应该是形如：spark-2.4.8-bin-xxxxxx.tgz的文件，很多人很困惑如何选择这些版本。

在这里插入图片描述

之所以会有这么多版本的选择，是因为Spark需要一些Hadoop客户端的依赖包（需要访问HDFS和YARN），这些版本主要分为两类：

pre-packaged binary，将Hadoop客户端的依赖包编译到所下载的压缩包当中，比如spark-2.4.8-bin-hadoop2.6.tgz 和spark-2.4.8-bin-hadoop2.7.tgz ，
“Hadoop free” binary，需要自己通过配置 SPARK_DIST_CLASSPATH 变量，以便可以包含指定版本的Hadoop的相关jar包，比如：spark-2.4.8-bin-without-hadoop-scala-2.12.tgz、spark-2.4.8-bin-without-hadoop.tgz 。

我们这里选择“Hadoop free” binary形式的spark-2.4.8-bin-without-hadoop.tgz进行下载，直接使用浏览器下载过慢，可以使用迅雷加速下载，也可以去后面的网盘资源进行下载。

2）安装Spark

这里约定虚拟机主机名为node1，用户名为xiaobai, 安装路径为/home/xiaobai/opt，如果不是，请自行修改相应配置文件。

上传安装包

将下载好的安装包上传至虚拟机（当然你也可以直接在虚拟机中下载，省得上传文件）

解压并创建软链接

tar -xvf spark-2.4.8-bin-without-hadoop.tgz -C ~/opt
cd ~/opt
ln -s spark-2.4.8-bin-without-hadoop  spark

Spark的目录结构

ls ~/opt/spark

在这里插入图片描述

bin: 可执行脚本，比如常用的spark-shell, pyspark等。
data：示例程序使用数据
jars：依赖的jar包
R：R API包
yarn：整合yarn相关内容
conf：配置文件目录
examples：示例程序
kubernetes：K8S相关内容
licenses：许可文件
python：python API包
sbin：管理使用的脚本，比如: start-all.sh、start-master.sh等。

配置环境变量

vi ~/.bashrc修改 .bashrc 文件，在文件末尾添加Spark的PATH路径

export SPARK_HOME=/home/xiaobai/opt/spark
export PATH=$SPARK_HOME/bin:$PATH

运行下面的命令使配置生效

source ~/.bashrc

配置Hadoop信息

因为我们下载的是“Hadoop free” 版本，所以要配置SPARK_DIST_CLASSPATH 变量才能正常运行。

cd ~/opt/spark/conf
cp spark-env.sh.template  spark-env.sh
vi spark-env.sh

在文件末尾添加配置如下信息

export SPARK_DIST_CLASSPATH=$(/home/xiaobai/opt/hadoop/bin/hadoop classpath)

修改日志级别

这一步可选，将日志级别调整至WARN级别，不至于看到过多的无效打印信息

cd ~/opt/spark/conf
cp log4j.properties.template log4j.properties #日志配置文件
vi log4j.properties

修改如下配置：

log4j.rootCategory= WARN, console

日志也可以通过代码进行调整，假设SparkContext对象为sc，则可以通过方法setLogLevel进行级别调整
sc.setLogLevel("WARN")

3）测试安装

到此，Spark安装完成，此时便可使用Spark的local模式了。

注意

我们下载的Spark版本是基于scala 2.11.12，这时会报如下错误，但不影响使用.

[ERROR] Failed to construct terminal; falling back to unsupported
java.lang.NumberFormatException: For input string: "0x100"

在这里插入图片描述

可以修改环境变量TERM的值为xterm-color解决：

vi ~/.bashrc

在文件末尾添加

export TERM=xterm-color

使配置生效

source ~/.bashrc

进入scala交互界面

使用如下命令进入scala交互界面：

spark-shell

运行代码

var r = sc.parallelize(Array(1,2,3,4))
r.map(_*10).collect()

在这里插入图片描述

4）配置pyspark

安装python

如果是ubuntu18+版本，系统已经默认安装Python3；在ubuntu16以前，系统默认安装python2

为了避免Python环境带来不必要的麻烦，这里将介绍两种安装Python环境的方式，建议选择安装Anaconda的方式。

所谓的Python环境主要包括Python解释器、Scripts目录（包含比如pip.exe）以及Lib目录（标准库和包安装目录site-pakages），在指定Python环境时，其实主要就是指定运行哪个目录下的Python解释器。

在安装之前，要注意python的版本问题，比如在使用Python3.8版本时，运行pyspark会出现如下错误，本文将安装Python 3.6版本。

在这里插入图片描述

安装官方的Python

（1）安装所需依赖

sudo apt-get install -y gcc make build-essential libssl-dev zlib1g-dev libbz2-dev libreadline-dev libsqlite3-dev wget curl llvm libncurses5-dev libncursesw5-dev xz-utils tk-dev libffi-dev liblzma-dev

（2）去官网下载对应版本源代码，这里以3.6.15为例

https://www.python.org/downloads/source/

wget https://www.python.org/ftp/python/3.6.15/Python-3.6.15.tar.xz

（3）安装Python

tar -xvf Python-3.6.15.tar.xz
cd Python-3.6.15
./configure  --prefix=/opt/python3 --enable-optimizations
sudo make && make install

注意，如果在安装过程中出现如下错误
subprocess.CalledProcessError: Command ‘(‘lsb_release’, ‘-a’)’ returned non-zero exit status 1
可以执行以下命令解决
rm -rf /usr/bin/lsb_release

（4）设置环境变量

为了使用刚才安装的Python版本，可以将包含python解释器的目录加入到path路径的最前面，所以在.bashrc的文件末尾添加如下设置，并使用source ~/.bashrc使配置生效。

export PATH=/opt/python3/bin:$PATH

安装Anaconda

（1）下载相应版本的Anaconda

可以在网页https://repo.anaconda.com/archive/上选择相应版本进行下载，这里将下载Anaconda3-5.1.0-Linux-x86_64.sh ,其python对应版本为3.6。
```
cd ~/soft
wget https://repo.anaconda.com/archive/Anaconda3-5.1.0-Linux-x86_64.sh
```
（2）安装anaconda
```
bash Anaconda3-5.1.0-Linux-x86_64.sh
```

然后一路回车，等出现接受许可界面，输入yes接收许可。

接着可以配置anacoda的安装目录，这里配置的安装目录是：/home/xiaobai/opt/anaconda3

在这里插入图片描述

然后配置是否自动配置PATH路径，这里输入的yes，让其自动配置

在这里插入图片描述

最后提示是否安装VSCode，这里输入的no，拒绝安装。

在这里插入图片描述

（3）使配置生效

刚才在安装过程中已经自动配置了PATH路径，可以查看添加的配置内容：

tail ~/.bashrc

在这里插入图片描述

source ~/.bashrc

安装pyspark开发包

注意，这里的Pyspark指的是在使用python编程时需要使用的pyspark模块，类似Mysql与pymysql的关系。

可以使用pip在线安装或者基于Spark的环境配置PYTHONPATH环境变量,建议选择后者。

pip在线安装

sudo apt install python3-pip  #安装pip3
sudo pip install pyspark==2.4.8 -i https://pypi.tuna.tsinghua.edu.cn/simple

配置PYTHONPATH环境变量

vi ~/.bashrc

在.bashrc的文件末尾添加如下设置，并使用source ~/.bashrc使配置生效。

export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.10.7-src.zip:SPARK_HOME/python/lib/pyspark.zip:$PATHONPATH
export PYSPARK_PYTHON=python3

注意：py4j-0.10.7-src.zip一定要与$SPARK_HOME/python/lib目录下的实际文件名一致，设置好后可以通过命令python -c "import sys; print(sys.path)"查看Python的Import Path。

5) 配置Spark伪Standalone模式

这里配置Standalone模式，为了方便初学者，这里只配置一台从节点，所以将其称为"伪Standalone模式"

切换至配置文件目录

cd ~/opt/spark/conf

spark-env.sh

vi spark-env.sh

添加如下配置信息

export SPARK_MASTER_HOST=node1          #设置主节点地址
export SPARK_WORKER_MEMORY=2g           #设置节点内存大小，此处为4G。
export SPARK_WORKER_CORES=2              #设置节点参与计算的核心数
export SPARK_WORKER_INSTANCES=1          #设置节点实例数
export JAVA_HOME=/home/xiaobai/opt/jdk
export HADOOP_CONF_DIR=/home/xiaobai/opt/hadoop/etc/hadoop

slaves

vi slaves

配置从节点信息

node1

6) 测试standalone模式

standalone启动

~/opt/spark/sbin/start-all.sh

可以使用start-master.sh、start-slave.sh和start-slaves.sh分别启动Master节点，本机slave节点和所有slave节点

此外，还会经常用到historysever,会用到脚本: start-history-server.sh，需要在spark-env.sh中配置SPARK_HISTORY_OPTS参数：
SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://node1:9000/sparklog/ -Dspark.history.fs.cleaner.enabled=true"

查看进程

jps

在这里插入图片描述

web查看

node1:8080

在这里插入图片描述

测试

pyspark --master spark://node1:7077

运行测试代码

r = sc.parallelize(range(10))
r.map(lambda x:x*2).collect()

在这里插入图片描述

停止

~/opt/spark/sbin/stop-all.sh

可以使用stop-master.sh、stop-slave.sh和stop-slaves.sh分别停止Master节点，本机slave节点和所有slave节点

7) 配置Web交互式环境

安装jupyter（如果在安装python时安装的anaconda，则不需要再安装jupyter, 因为anaconda本身包含了jupyter)

sudo pip3 install jupyter -i https://pypi.tuna.tsinghua.edu.cn/simple

启动jupyter进入交互界面

jupyter notebook

或者

jupyter lab

尝试运行代码

from pyspark import SparkConf, SparkContext
conf = SparkConf().setMaster('local').setAppName("My App")
sc = SparkContext(conf = conf)
logFile = "file:///home/xiaobai/opt/spark/README.md"
logData = sc.textFile(logFile, 2).cache()
numAs = logData.filter(lambda line: 'a' in line).count()
numBs = logData.filter(lambda line: 'b' in line).count()
print('Lines with a: %s, Lines with b: %s' % (numAs, numBs))

3. 代码提交

编写wordcount程序

vi wordcount.py

编写代码：

from pyspark import SparkConf, SparkContext
conf = SparkConf().setAppName("My App")
sc = SparkContext(conf = conf)
logFile = "file:///home/xiaobai/opt/spark/README.md"
logData = sc.textFile(logFile, 2).cache()
numAs = logData.filter(lambda line: 'a' in line).count()
numBs = logData.filter(lambda line: 'b' in line).count()
print('Lines with a: %s, Lines with b: %s' % (numAs, numBs))

提交代码到local

 spark-submit  wordcount.py

提交代码到Standalone

请确保已开启master和worker

 spark-submit  --master spark://node1:7077 wordcount.py

提交代码到YARN

spark-submit  --master yarn wordcount.py

注意：

因为我们采用的是伪分布式，主机内存可能不够，可能导致如下错误

ERROR TransportClient: Failed to send RPC RPC 6184886792270084293 to /192.168.206.129:56372: java.nio.channels.ClosedChannelException

在这里插入图片描述

可以修改Hadoop的yarn-site.xml配置，然后重启YARN即可。

<property>
    <name>yarn.nodemanager.pmem-check-enabled</name>
    <value>false</value>
</property>
<property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>

spark-submit常用参数，可以使用help命令查看：

spark-submit  --help

常用参数：

Options:
--master MASTER_URL         spark://host:port, mesos://host:port, yarn,
                           k8s://https://host:port, or local (Default: local[*]).
--deploy-mode DEPLOY_MODE   Whether to launch the driver program locally ("client") or
                           on one of the worker machines inside the cluster ("cluster"), (Default: client).  
--class CLASS_NAME          Your application's main class (for Java / Scala apps).
--name NAME                 A name of your application.
--jars JARS                 Comma-separated list of jars to include on the driver
                           and executor classpaths.
--packages                  Comma-separated list of maven coordinates of jars to include
                           on the driver and executor classpaths. Will search the local
                           maven repo, then maven central and any additional remote
                           repositories given by --repositories. The format for the
                           coordinates should be groupId:artifactId:version

三、相关资源

链接：https://pan.baidu.com/s/1u3Qbj2VQ8UbuSuGQOWjWCg 
提取码：nuli

本文链接：https://blog.csdn.net/tangyi2008/article/details/123109198

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

leetcode 172. 阶乘后的零-程序员宅基地

文章浏览阅读63次。题目给定一个整数 n，返回 n! 结果尾数中零的数量。解题思路每个0都是由2 * 5得来的，相当于要求n!分解成质因子后2 * 5的数目，由于n中2的数目肯定是要大于5的数目，所以我们只需要求出n!中5的数目。C++代码class Solution {public: int trailingZeroes(int n) { ...

Day15-【Java SE进阶】IO流（一）：File、IO流概述、File文件对象的创建、字节输入输出流FileInputStream FileoutputStream、释放资源。_outputstream释放-程序员宅基地

文章浏览阅读992次，点赞27次，收藏15次。UTF-8是Unicode字符集的一种编码方案，采取可变长编码方案，共分四个长度区:1个字节，2个字节，3个字节，4个字节。文件字节输入流：每次读取多个字节到字节数组中去，返回读取的字节数量，读取完毕会返回-1。注意1:字符编码时使用的字符集，和解码时使用的字符集必须一致，否则会出现乱码。定义一个与文件一样大的字节数组，一次性读取完文件的全部字节。UTF-8字符集:汉字占3个字节，英文、数字占1个字节。GBK字符集:汉字占2个字节，英文、数字占1个字节。GBK规定:汉字的第一个字节的第一位必须是1。_outputstream释放

jeecgboot重新登录_jeecg 登录自动退出-程序员宅基地

文章浏览阅读1.8k次，点赞3次，收藏3次。解决jeecgboot每次登录进去都会弹出请重新登录问题，在utils文件下找到request.js文件注释这段代码即可_jeecg 登录自动退出

数据中心供配电系统负荷计算实例分析-程序员宅基地

文章浏览阅读3.4k次。我国目前普遍采用需要系数法和二项式系数法确定用电设备的负荷，其中需要系数法是国际上普遍采用的确定计算负荷的方法，最为简便;而二项式系数法在确定设备台数较少且各台设备容量差..._数据中心用电负荷统计变压器

HTML5期末大作业：网页制作代码网站设计——人电影网站(5页) HTML+CSS+JavaScript 学生DW网页设计作业成品 dreamweaver作业静态HTML网页设计模板_网页设计成品百度网盘-程序员宅基地

文章浏览阅读7k次，点赞4次，收藏46次。HTML5期末大作业：网页制作代码网站设计——人电影网站(5页) HTML+CSS+JavaScript 学生DW网页设计作业成品 dreamweaver作业静态HTML网页设计模板常见网页设计作业题材有个人、美食、公司、学校、旅游、电商、宠物、电器、茶叶、家居、酒店、舞蹈、动漫、明星、服装、体育、化妆品、物流、环保、书籍、婚纱、军事、游戏、节日、戒烟、电影、摄影、文化、家乡、鲜花、礼品、汽车、其他等网页设计题目, A+水平作业_网页设计成品百度网盘

【Jailhouse 文章】Look Mum, no VM Exits_jailhouse sr-iov-程序员宅基地

文章浏览阅读392次。jailhouse 文章翻译，Look Mum, no VM Exits!_jailhouse sr-iov

随便推点

chatgpt赋能python：Python怎么删除文件中的某一行_python 删除文件特定几行-程序员宅基地

文章浏览阅读751次。本文由chatgpt生成，文章没有在chatgpt生成的基础上进行任何的修改。以上只是chatgpt能力的冰山一角。作为通用的Aigc大模型，只是展现它原本的实力。对于颠覆工作方式的ChatGPT，应该选择拥抱而不是抗拒，未来属于“会用”AI的人。AI职场汇报智能办公文案写作效率提升教程专注于AI+职场+办公方向。下图是课程的整体大纲下图是AI职场汇报智能办公文案写作效率提升教程中用到的ai工具。_python 删除文件特定几行

Java过滤特殊字符的正则表达式_java正则表达式过滤特殊字符-程序员宅基地

文章浏览阅读2.1k次。【代码】Java过滤特殊字符的正则表达式。_java正则表达式过滤特殊字符

CSS中设置背景的7个属性及简写background注意点_background设置背景图片-程序员宅基地

文章浏览阅读5.7k次，点赞4次，收藏17次。css中背景的设置至关重要，也是一个难点，因为属性众多，对应的属性值也比较多，这里详细的列举了背景相关的7个属性及对应的属性值，并附上演示代码，后期要用的话，可以随时查看，那我们坐稳开车了······1: background-color 设置背景颜色2:background-image来设置背景图片- 语法：background-image:url(相对路径);-可以同时为一个元素指定背景颜色和背景图片，这样背景颜色将会作为背景图片的底色，一般情况下设置背景..._background设置背景图片

Win10 安装系统跳过创建用户，直接启用 Administrator_windows10msoobe进程-程序员宅基地

文章浏览阅读2.6k次，点赞2次，收藏8次。Win10 安装系统跳过创建用户，直接启用 Administrator_windows10msoobe进程

PyCharm2021安装教程-程序员宅基地

文章浏览阅读10w+次，点赞653次，收藏3k次。Windows安装pycharm教程新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入下载安装PyCharm1、进入官网PyCharm的下载地址：http://www.jetbrains.com/pycharm/downl_pycharm2021

《跨境电商——速卖通搜索排名规则解析与SEO技术》一一1.1　初识速卖通的搜索引擎...-程序员宅基地

文章浏览阅读835次。本节书摘来自异步社区出版社《跨境电商——速卖通搜索排名规则解析与SEO技术》一书中的第1章，第1.1节，作者：冯晓宁，更多章节内容可以访问云栖社区“异步社区”公众号查看。1.1　初识速卖通的搜索引擎1.1.1　初识速卖通搜索作为速卖通卖家都应该知道，速卖通经常被视为“国际版的淘宝”。那么请想一下，普通消费者在淘宝网上购买商品的时候，他的行为应该..._跨境电商速卖通搜索排名规则解析与seo技术 pdf