hive和hadoop的浅显理解_一篇文章了解hadoop hive-程序员宅基地

技术标签: hive  学习总结  

hadoop是一个分布式存储系统,他可以将我们的日志、数据等存储到不同的节点上(当数据十分大的时候),有时候一份数据会被存储到不同机器的不同磁盘上面。

那么问题来了:
我们想取出这么一整份数据并做对应计算怎么办呢?
这个时候,mapreduce就应运而生。它是一个依托于hadoop上的计算引擎,主要就是对数据进行合并汇总等操作,本身并不存储数据。
那hive是什么呢?
hive是基于hadoop的一个数据仓库工具。由于mapreduce程序比较复杂,故而hive对他做了一层封装。它可以将我们写的hql翻译成mapreduce去计算数据。说白了,它就是一个搞翻译的

但是由于mapreduce每次都是对磁盘进行操作,每次中间job操作的输出结果,都是先存到磁盘里面的,这样再去读取中间job的数据再进行操作的时候,速度就很慢。
这个时候 spark计算引擎就可以解决这个问题,spark每次中间job的操作结果,都是存入内存,之后的读取也是直接从内存读出,大大的提高了数据计算的速度,也因为如此 spark的计算成本要比mapreduce贵(一个用内存过渡,一个用磁盘过渡)。当然spark并不止依托于分布式存储系统上面。

mapreduce和spark的共同点之一:他们均不存储数据,只对数据进行操作(计算)
浅显理解,本文完毕。在这里插入图片描述

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/naxiaorongshixiatian/article/details/124351737

智能推荐

机器学习-分类模型(鸢尾花案例)_鸢尾花模型-程序员宅基地

文章浏览阅读5.2k次,点赞8次,收藏103次。众所周知,鸢尾花根据 '花瓣长度','花瓣宽度','花萼长度','花萼宽度',分为三类,在数据集中分别用0,1,2来表示类别本次就是通过对鸢尾花特征进行训练来判断出为哪一类,用到了分类算法的4个模型一 导入库函数和数据集,该数据已经分好了训练集和测试集,直接导入import numpy as npimport pandas as pdimport matplotlib.pyplot as pltdata_train = pd.read_csv('./iris_training.csv'_鸢尾花模型

在windows上搭建cs231n本地作业环境_cs231n在本地运行-程序员宅基地

文章浏览阅读731次,点赞2次,收藏3次。在windows上搭建cs231n本地作业环境最近在学习斯坦福大学计算机视觉实验室推出的 cs231n 这门课,在此分享一些自己的学习心得,希望在提升自己的同时能帮大家解决一些小问题。搭建本地作业环境下载作业包 Spring 2020 Assignments(IE浏览器打不开,换其它浏览器)下载好后解压(我放在了桌面)下载数据集CIFAR-10,解压后放到作业代码下的cs231n/datasets里(作业一)下载Anaconda:Anaconda官网在网页底端找到对应版本下载并安装_cs231n在本地运行

centos8.2使用docker安装mysql5.7并导入sql文件_sql注入 mysql linux docker centos-程序员宅基地

文章浏览阅读1.5k次,点赞4次,收藏3次。centos8.2使用docker安装并启动mysql5.71.安装mysql5.72.查看镜像2.运行容器3.安装成功拷贝sql文件4.进入容器5进入mysql6.创建数据库并导入1.安装mysql5.7docker pull mysql5.7 //指定版本5.7 docker pull mysql //不指定版本默认拉取最新版本2.查看镜像docker images2.运行容器docker run --name mysql5.7 -p 3306:3306 -e MYSQL_ROOT__sql注入 mysql linux docker centos

java爬取网页内容 简单例子_java获取网页例子-程序员宅基地

文章浏览阅读337次。java爬取网页内容 简单例子(1)——使用正则表达式【本文介绍】  爬取别人网页上的内容,听上似乎很有趣的样子,只要几步,就可以获取到力所不能及的东西,例如呢?例如天气预报,总不能自己拿着仪器去测吧!当然,要获取天气预报还是用webService好。这里只是举个例子。话不多说了,上看看效果吧。【效果】我们随便找个天气预报的网站来试试:http://www.weat_java获取网页例子

配置SOIL库,实现纹理加载_soil库下载-程序员宅基地

文章浏览阅读9.2k次,点赞2次,收藏6次。SOIL 是一个用于向OpenGL中加载_soil库下载

怎么删除计算机的一个用户名和密码,哪位晓得电脑有两个账户怎么删除一个-程序员宅基地

文章浏览阅读7.9k次。我是疯狂的骆驼回答数:24214|被采纳数:512016-12-13 08:25:15计算机用户账户:计算机用户账户:由将用户定义到某一系统的所有信息组成的记录,账户为用户或计算机提供安全凭证,包括用户名和用户登陆所需要的密码,以及用户使用以便用户和计算机能够登录到网络并访问域资源的权利和权限。删除的方法:针对Windows xp1、重启电脑用Administrator账户登录,右键我的..._怎么删除电脑另外一个账户

随便推点

【C++】Windows API 串口通讯通用类源码_c++ 串口类-程序员宅基地

文章浏览阅读1.7k次,点赞2次,收藏15次。文章目录01、串口通讯02、 CreateFile API03、串口通讯Demo01、串口通讯在工业控制中,工控机(一般都基于Windows平台)经常需要与智能仪表通过串口进行通信。串口通信方便易行,应用广泛。RS232通信协议是目前最常用的一种全双工点对点式的异步串行通信协议接口标准。RS232接口标准由于出现较早,所以其目前存在很多问题。接口电平值较高,易损坏接口电路的芯片。传输速率较低,大约为20Kbps;传输距离较短,大约为15米左右。接口由三根线TX、RX、GND组成,没有构成差分线_c++ 串口类

QTabWidget设置某个界面不可点击显示_qt tablewidget设置某一页不可点击-程序员宅基地

文章浏览阅读1.9k次,点赞2次,收藏2次。ui->tabWidget->setTabEnabled(1,false);//设置index=1的页面enabled_qt tablewidget设置某一页不可点击

用Python轻松打造定制款《植物大战僵尸》-程序员宅基地

文章浏览阅读567次。《植物大战僵尸》这款游戏也算是曾经风靡一时,不少网友曾用Python开发《坦克大战》、《飞机大战》、《扫雷》等经典游戏,开发《植物大战僵尸》当然也没问题。相比《坦克大战》等游戏,《植物大..._用python制作植物大战僵尸游戏

html(10-小鲜兔儿项目)_小兔鲜儿项目素材-程序员宅基地

文章浏览阅读8.5k次,点赞18次,收藏67次。文章目录综合项目小兔鲜项目一 分析1 Header 部分开发2Footer 部分开发3 网站入口 xtx-entry 部分开发4 新鲜好物面板 xtx-new-goods 部分开发5 生鲜商品面板 xtx-fresh-goods 部分开发二 项目结构三 代码实现3.1 index.html 代码3.2 base.css 代码3.3 common.css 代码3.4 index.css 代码四 效果综合项目小兔鲜项目一 分析1 Header 部分开发2Footer 部分开发_小兔鲜儿项目素材

J2EE+Flex的菜单及权限控制实践_import flex.messaging.flexcontext-程序员宅基地

文章浏览阅读742次。本文讲述了J2EE+Flex的一些开发心得。作者一直是搞J2EE的,使用了blazeds,Flex通过RemoteObject调用Java的后台方法。这样的一个最大的好处就是不再需要struts这样之类的框架了,可以直接使用spring中的bean。AD:最近学习了下Flex,我一直是搞J2EE的。所以想整合试着开发,J2EE+Flex在网上查了些资料,有好_import flex.messaging.flexcontext

java robot 游戏_JAVA制作游戏脚本(1)---Robot机器人-程序员宅基地

文章浏览阅读1.6k次。JAVA制作游戏脚本(1)—Robot机器人//1.创建一个机器人实例Robot robot = new Robot();API//2.延时函数robot.delay(毫秒值);//3.鼠标按下,括号中加按下的键InputEvent.BUTTON1_DOWN_MASK (鼠标左键)InputEvent.BUTTON2_DOWN_MASK (鼠标中键)InputEvent.BUTTON3_DOWN_...

推荐文章

热门文章

相关标签