spark - 程序员宅基地

Spark SQL参数调优指南

目录 1 运行行为 1.1 动态生成分区 1.2 broadcast join 使用hint强制做broadcastjoin： 1.3 动态资源分配 ...2.3 executor读取hive表时单task处理数据量/无shuffle作业小文件合并 ...2.4 GC优化（使用较少，当尝试...

Spark相关配置参数

标签： spark 大数据

spark重要参数配置

Spark入门详解

标签： spark

一 Spark概述 1 11 什么是Spark 2 Spark特点 3 Spark的用户和用途二 Spark集群安装 1 集群角色 2 机器准备 3 下载Spark安装包 4 配置SparkStandalone 5 配置Job History ServerStandalone 6 ...

Spark集群搭建超详细教程

标签： spark hadoop 大数据

在上一篇文章《Hadoop集群搭建配置教程》中详细介绍了Hadoop集群搭建的全部过程，今天为大家带来分布式计算引擎Spark集群搭建，还是使用三个虚拟机节点上进行安装部署，围绕Standalone模式和Yarn模式的这两种部署...

Spark开发-Spark内存溢出原因以及解决方式

标签： spark jvm java

Spark内存溢出堆内内存溢出堆外内存溢出堆内内存溢出具体说明Heap size JVM堆的设置是指java程序运行过程中JVM可以调配使用的内存空间的设置.JVM在启动的时候会自动设置Heap size的值，Heap size 的大小是Young ...

安装启动Spark并使用spark完成java程序及读写Mysql数据库

标签： spark 数据库 java

目录实践目标实践步骤一、安装CentOS二、安装Spark1.下载spark压缩包2. 新建spark专用文件夹3.解压spark包到指定路径/usr/spark下4. 移动spark-3.0.1-bin-hadoop3.2下所有文件5. 修改文件权限6. 验证是否安装成功7. ...

Centos7上安装配置Spark

标签： spark

该文章主要是描述单机版Spark的简单安装，版本为 spark-3.1.3-bin-hadoop3.2.tgz 1、Spark 下载、解压、安装 Spark官方网站： Apache Spark™ - Unified Engine for large-scale data analytics Spark下载地址：...

spark安装以及hive on spark和spark on hive 的配置

标签： spark hive hadoop

安装spark版本为已经编译好的spark-3.2.1-bin-hadoop3.2-scala2.13.tgz，其同样兼容hadoop-3.3.2； Hive on Spark(为hive配置spark引擎)：Hive既作为存储元数据又负责SQL的解析优化，语法是HQL语法，执行引擎变成了...

spark-core_2.11-1.5.2.logging.jar

标签： spark-core 2.11-1.5.2 logging jar

spark-core_2.11-2.0.0.jar比spark-core_2.11-1.5.2.jar少了org.apache.spark.Logging.class，故此把缺少的class放到spark-core_2.11-1.5.2.logging.jar里面

Java-Spark系列8-Spark streaming整合Kafka

标签： Spark Streaming Spark + kafka Spark准实时

Spark streaming整合Kafka概述1.1 Maven配置1.2 创建Direct Stream1.3 定位策略1.4 消费者的策略1.5 创建RDD1.6 获得Offsets1.7 存储 Offsets1.8 检查点1.9 Kafka自身1.10 自身数据存储二.Spark Streaming整合Kafka...

Spark基础【五种运行模式】

标签： spark java 大数据

在自己学习时，每次都需要启动虚拟机，启动集群，这是一个比较繁琐的过程，并且会占大量的系统资源，导致系统执行变慢，不仅仅影响学习效果，也影响学习进度，Spark非常暖心地提供了可以在windows系统下启动本地集群...

Spark 内存管理 spark.executor.memory /spark.memory.fraction/spark.memory.offHeap.size【堆外内存/内存...

标签： spark 内存管理 executor

spark.executor.memory 包含spark.memory.fraction； spark.memory.fraction 包含 spark.memory.storageFraction； spark 2.4.5 Application Properties Property Name Default Meaning spark.app.name ...

Java-Spark系列10-Spark性能调优概述

标签： Spark优化 Spark数据倾斜 Spark参数调整

文章目录一.Spark 性能优化概述二.运行环境优化2.1 数据本地性2.2 数据存储格式三.RDD算子优化3.1 尽可能复用同一个RDD3.2 对多次使用的RDD进行持久化四.参数微调五.数据倾斜六. Spark常用的调优参数6.1 在内存中...

Spark快速数据处理

标签： Spark 数据处理

Spark是一个通用的并行分布式计算框架，由UCBerkeley的AMP实验室开发。Spark使得程序员更容易地编写分布式应用，并且能够根据自己的喜好使用Scala、Java或者Python作为开发语言。本书系统讲解了Spark的应用方法，...

基于Docker快速安装Spark及基础使用

标签： spark scala docker

基于Docker快速安装Spark及基础使用实战环境信息docker编排工具docker-compose安装使用官网指导方式安装（不推荐）使用国内镜像源安装(推荐)安装docker的spark镜像结果通过 Spark Shell 进行交互分析基础操作新建RDD...

Spark 集群搭建（多种方式）

标签： spark 大数据 hadoop

可以看到，我们的 Spark on Hive 运行模式已经部署成功啦！

spark的安装与部署

标签： spark 大数据

为了避免MapReduce框架中多次读写磁盘带来的消耗，以及更充分地利用内存，加州大学伯克利分校的AMP Lab提出了一种新的、开源的、类Hadoop MapReduce的内存编程模型Spark。一、spark是什么？Spark是一个基于内存的...

11.Linux下Spark的安装配置以及spark-shell的启动和 Spark集群环境搭建

标签： linux spark hadoop

（1）安装Spark 1.先用xftp将安装包传到home/hadoop/Downloads文件夹下，然后解压安装。 2.解压缩： 3. 更改文件夹名称： 4.修改hadoop用户对文件夹spark的访问权限：（2）配置 1.复制一份由Spark安装文件自带的...

Spark常见错误剖析与应对策略

标签： spark 大数据 big data

工作中spark 的常见问题以及发生的原因和应对策略

大数据Spark框架概述

标签： big data spark 大数据

目录1 Spark 是什么2 Spark 四大特点2.1 速度快2.2 易于使用2.3 通用性强2.4 运行方式3 Spark 框架模块3.1 Spark Core3.2 Spark SQL3.3 Spark Streaming3.4 Spark MLlib3.5 Spark GraphX3.6 Structured Streaming4 ...

spark和flink是什么、区别、共同点以及替换性

标签： spark flink hadoop

spark和flink是什么、区别、共同点以及替换性

Spark SQL简介

标签： python Spark

Spark SQL简介一、从Shark说起 1、在这之前我们要先理解Hive的工作原理： Hive是一个基于Hadoop的数据仓库工具，提供了类似于关系数据库SQL的查询语言——HiveSQL，用户可以通过HiveSQL语句快速实现简单的...

Spark基础教程

标签：大数据 spark hadoop

Spark最初由美国加州伯克利大学的AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。 Spark特点 Spark具有如下几个主要特点：运行速度快：Spark使用先进...

spark之读写Hive

标签： spark hive sql

1.1 将hive-site.xml拷贝到spark/conf目录下：分析：从错误提示上面就知道，spark无法知道hive的元数据的位置，所以就无法实例化对应的client。解决的办法就是必须将hive-site.xml拷贝到spark/conf目录下 1.2...

Spark Thrift Server 部署与应用

标签： spark hive big data

在介绍spark thrift server 需要先介绍一下其与hiverserver2及spark-sql的关系与区别 HiveServer2 Hive提供了一个命令行终端，在安装了Hive的机器上，配置好了元数据信息数据库和指定了Hadoop的配置文件之后输入...

大数据之spark_spark简介

标签： spark

Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache的顶级项目，2014年5月发布spark1.0，2016年7月发布spark...

Spark集群部署

标签： spark 大数据分布式

2.4) 修改spark-env.sh文件，添加JAVA_HOME环境变量和集群对应的master节点 [root@qianfeng01 local]# vi /usr/local/spark-3.1.2/conf/spark-env.sh。2)修改hadoop中的配置文件/usr/local/hadoop-3.3.1/etc/hadoop/...