spark - 程序员宅基地

Spark系列—Spark SQL执行过程解析

标签： spark

spark-sql

【Spark】Spark对数据的读入和写出操作

Spark对数据的读入和写出操作数据存储在文件中CSV类型文件JSON类型文件Parquet操作分区操作数据存储在Hive表中数据存储在MySQL中数据存储在文件中在操作文件前，我们应该先创建一个SparkSession val spark = ...

Hive on Spark VS Spark on Hive

标签： hive spark big data

Hive on Spark VS Spark on Hive 两者概述 Hive on Spark Hive on Spark是由Cloudera发起，由Intel、MapR等公司共同参与的开源项目，其目的是把Spark作为Hive的一个计算引擎，将Hive的查询作为Spark的任务提交到...

IDEA 本地运行Spark

标签： spark

IDEA 本地运行Spark1、背景2、环境准备3、具体流程3.1 IDEA创建maven项目3.2 pom.xml配置3.3 Demo程序示例3.4 结果输出3.5 总结改进 1、背景主要用于本地阅读Spark源码，同时也可以用于实战运行spark程序 2、环境...

Spark详解

spark详解

大数据学习之 Spark 概述

标签： spark big data scala

Spark简介 Spark 是一种由 Scala 语言开发的快速、通用、可扩展的大数据分析引擎。 Spark主要由五部分组成： Spark Core Spark Core 中提供了 Spark 最基础与最核心的功能，Spark 其他的功能如：Spark SQL， Spark...

Spark序列化 & Encoders

标签： spark scala big data

spark序列化方式分布式的程序存在着网络传输，无论是数据还是程序本身的序列化都是必不可少的。spark自身提供两种序列化方式： java序列化：这是spark默认的序列化方式，使用java的ObjectOutputStream框架，只要是...

VMware创建Linux虚拟机之（五）Spark完全分布式部署教程

标签： linux 运维服务器

VMware创建Linux虚拟机之（五）Spark完全分布式部署教程

Spark一些个人总结

标签： spark big data scala

随着大数据技术的发展，一些更加优秀的组件被提了出来，比如现在最常用的Spark组件，基于RDD原理在大数据处理中占据了越来越重要的作用。在此我们探索了Spark的原理，以及其在大数据开发中的重要作用。...

Spark框架概括（Spark 是什么、Spark and Hadoop、Spark or Hadoop、Spark核心模块）

标签： hadoop spark mapreduce

1. Spark概括 1.1 Spark 是什么 1.2 Spark and Hadoop 从时间节点上来看从功能上来看 - hadoop与Hadoop不同的是，Spark主要侧重于通过内存计算，以及处理优化机制加快批处理的工作负载的运行速度 Spark相比于...

[Spark版本更新]--Spark-2.4.0 发布说明

标签： spark spark-2.4.0

2018-11-02 Apache Spark 官方发布了 2.4.0版本，以下是 Release Notes，供参考： Sub-task [ SPARK-6236 ] - 支持大于2G的缓存块 [ SPARK-6237 ] - 支持上传块&gt; 2GB作为流 [ SPARK-10884 ] - ...

Hive和Spark

标签： hive

1. Hive简介 hive的定位是数据仓库，其提供了通过 sql 读写和管理分布式存储中的大规模的数据，即 hive即负责数据的存储和管理（其实依赖的是底层的hdfs文件系统或s3等对象存储系统），也负责通过 sql来处理和分析...

hive sql 和 spark sql的区别

标签： hive sql spark

要知道两种sql的区别，先要知道什么是hive，什么是spark 一、什么是hive，什么是spark （一）hive 1、hive在hadoop中承担了多种角色，每种角色承担特定的功能。定语角色作用优点基于Hadoop的数仓工具 ...

spark学习资料大全下载六份资料

标签： Spark 大数据处理技术

包括：《Spark大数据处理：技术、应用与性能优》《Spark大数据处理技术》《Spark高级数据分析》《Spark快速数据处理_中文版》《大数据Spark企业级实战》《Spark 编程指南》方便大家共同学习

hadoop组件---spark理论----spark on k8s模式的三种方式全面了解

标签： spark k8s operator

我们在之前的文章中已经了解了 spark支持的模式，其中一种就是使用k8s进行管理。 hadoop组件—spark----全面了解spark以及与hadoop的区别是时候考虑让你的 Spark 跑在K8s 上了 spark on k8s的优势–为什么要把...

windows搭建spark环境

标签： spark windows scala

windows 安装spark ，scala（spark需要scala环境），spark，hadoop 安装

【大数据开发 Spark】第一篇：Spark 简介、Spark 的核心组成（5大模块）、Spark 的主要特征（4大特征）、...

标签： spark big data mapreduce

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、...

linux卸载spark重装,Spark- Linux下安装Spark

标签： linux卸载spark重装

Spark- Linux下安装Spark前期部署1.JDK安装，配置PATH可以参考之前配置hadoop等配置2.下载spark-1.6.1-bin-hadoop2.6.tgz,并上传到服务器解压[root@srv01 ~]# tar -xvzf spark-1.6.1-hadoop2.6.tgz /usr/spark-1.6.1...