通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据_oracle路 sqoop mysql-程序员宅基地

技术标签: 大数据学习  

通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据

下文将重点说明通过Sqoop实现Mysql与HDFS互导数据,Mysql与Hbase,OracleHbase的互导最后给出命令。

一、Mysql与HDFS互导数据

环境:

宿主机器操作系统为Win7,Mysql安装在宿主机上,宿主机地址为192.168.66.96

3台虚拟机操作系统为Ubuntu-12.04.1-32位

三台虚拟机已成功安装Hadoop,并实现免密钥互访,配hosts为:

192.168.66.91 masternode

192.168.66.92 slavenode1

192.168.66.93 slavenode2

/etc/profile已配置好必备环境变量HADOOP_HOME,JAVA_HOME

实验在masternode上进行,已成功连接mysql

 

步骤一,下载安装包:

我安装的Hadoop版本是原生hadoop-0.20.203.0,SQOOP不支持此版本,可使用CDH3版本hadoop,也可以通过拷贝相应的包到sqoop-1.2.0-CDH3B4/lib下,依然可以使用。

下载相关文件:

http://archive.cloudera.com/cdh/3/hadoop-0.20.2-CDH3B4.tar.gz

http://archive.cloudera.com/cdh/3/sqoop-1.2.0-CDH3B4.tar.gz

sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2-CDH3B4.jar,所以你需要下载hadoop- 0.20.2-CDH3B4.tar.gz,解压缩后hadoop-0.20.2-CDH3B4/hadoop-core-0.20.2- CDH3B4.jar复制到sqoop-1.2.0-CDH3B4/lib中。

另外,sqoop导入mysql数据运行过程中依赖mysql-connector-java-*.jar,所以你需要下载mysql-connector-java-*.jar并复制到sqoop-1.2.0-CDH3B4/lib中。

 

步骤二,相关配置:

修改SQOOP的文件configure-sqoop,注释掉hbase和zookeeper检查(除非你准备使用HABASE等HADOOP上的组件) #if [ ! -d "${HBASE_HOME}" ]; then

# echo “Error: $HBASE_HOME does not exist!”

# echo ‘Please set $HBASE_HOME to the root of your HBase installation.’

# exit 1

#fi

#if [ ! -d "${ZOOKEEPER_HOME}" ]; then

# echo “Error: $ZOOKEEPER_HOME does not exist!”

# echo ‘Please set $ZOOKEEPER_HOME to the root of your ZooKeeper installation.’

# exit 1

#fi

 

修改/etc/profile环境变量文件(su root之后,sudo gedit /etc/profile):

添加 export SQOOP_HOME=/home/grid/sqoop

在原有PATH后添加 :$SQOOP_HOME/bin

 

步骤三,在mysql中建立测试用户,测试表和数据,并测试sqoop连接mysql:

创建用户sqoop并授权:

grant all privileges on *.* to 'sqoop'@'%' identified by 'sqoop' with grant option;

 

创建表空间(schema)sqoop,并创建测试表:

create table students (

id int not null primary key,

name varchar(20),

age int)

 

插入测试数据:

insert into students values('10001','liyang',29);

insert into students values('10002','lion',28);

insert into students values('10003','leon',26);

 

masternode测试sqoop能否成功连接宿主机器上的mysql:

sqoop list-tables --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop

如果能正确显示出sqoop表空间中的students表,就说明sqoop已经可以成功连接mysql!

 

步骤四,将mysql中sqoop表空间的students表的三行数据导入HDFS:

启动hadoop

start-all.sh

jps验证启动是否成功

显示正在运行以下进程即为启动成功:

2820 SecondaryNameNode

4539 Jps

2887 JobTracker

2595 NameNode

 

mysql导入数据,运行如下命令

sqoop import --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop --table students -m 1

 

验证导入数据是否成功:

若导入成功,运行 hadoop dfs -ls 将能看到根目录/user/grid/下有以表名命名的文件夹students

运行 hadoop dfs -ls /user/grid/students 能看到该文件夹中包含文件:/user/grid/students/part-m-00000

运行 hadoop dfs -cat /user/grid/students/part-m-00000 就能看到该文件已经包含mysql中students表的三行数据:

10001,liyang,29

10002,lion,28

10003,leon,26

 

步骤五,将HDFS中的数据导入Mysql的students表中:

首先将mysql的students表数据清空:

delete from students;

 

然后在masternode上执行导出数据命令:

sqoop export --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop --table students --export-dir hdfs://masternode:9000/user/grid/students/part-m-00000

 

若成功,在mysql中会看到students表中的数据恢复了!

 

注意过程中可能会因为slavenode的50010端口没打开而报错,需用root用户通过sudo ufw allow 50010命令打开端口!

 

二、Mysql与Hbase互导数据

mysql的数据导入hbase的命令格式为:

sqoop import --connect jdbc:mysql://mysqlserver_IP/databaseName --username --password password --table datatable --hbase-create-table --hbase-table hbase_tablename --column-family col_fam_name --hbase-row-key key_col_name

其中 databaseName 和datatable 是mysql的数据库和表名,hbase_tablename是要导成hbase的表名,key_col_name可以指定datatable中哪一列作为hbase新表的rowkey,col_fam_name是除rowkey之外的所有列的列族名

 

例如:可通过如下命令将Mysql中的students表导入到Hbase中:

/home/grid/sqoop/bin/sqoop import --connect jdbc:mysql://192.168.66.96/sqoop --username sqoop --password liyang16 --table students --hbase-create-table --hbase-table students --column-family stuinfo --hbase-row-key id

成功执行后,可在hbase中用以下命令查看结果:

hbase(main):011:0> scan 'students'

ROW COLUMN+CELL

10001 column=stuinfo:age, timestamp=1356759994058, value=29

10001 column=stuinfo:name, timestamp=1356759994058, value=liyang

10002 column=stuinfo:age, timestamp=1356760044478, value=28

10002 column=stuinfo:name, timestamp=1356760044478, value=lion

10003 column=stuinfo:age, timestamp=1356760044478, value=26

10003 column=stuinfo:name, timestamp=1356760044478, value=leon

3 row(s) in 0.0900 seconds

 

三、Oracle与Hbase互导数据

Oracle中的dept表(列为id,name,addr)导出至hbase中的dept表(行键为id,列族为deptinfo)

sqoop import --append --connect jdbc:oracle:thin:@192.168.66.90:1521:orcl --username test --password test --m 1 --table dept --columns id,name,addr --hbase-create-table --hbase-table dept --hbase-row-key id --column-family deptinfo

 

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_27300101/article/details/80798534

智能推荐

Python办公自动化实战 09 | Python-docx库:Python与Word的完美结合_ 如何在Word中生成表格?把Python办公自动化进行到底-程序员宅基地

文章浏览阅读911次。本小节主要演示了怎么向Word文档中创建表格并插入数据,并且对表格格式做个性化的设定。_python与word的完美结合

MySQL:从库binlog 使用mysqlbinlog stop-datetime过滤问题-程序员宅基地

文章浏览阅读2k次。更多主从同步相关可以参考我的《深入理解MySQL主从原理》专栏:本文是一个朋友问我问题。从库使用mysqlbinlog..._mysql stop-datetime

SAP入门经验_sap经验-程序员宅基地

文章浏览阅读8k次,点赞18次,收藏30次。SAP入门的经验SAP业务顾问入门确实起点比较高,这在我最开始入门的时候不以为然,但是随着学习的深入,才发现原来老师们说的是真的!简单说一下我自己的入门经历,我是本科是工业工程(IE)专业的,如果有了解的肯定知道这个专业是干什么的,步入这个行业我才发现我所学的专业知识都挺有用的,特别是PP模块,我本身在大学就经常参加一些生产优化案例竞赛,对于排产,MRP等信息有了初步的了解,更重要的是IE专业培养了我的优化意识我感觉这是我的一大笔财富。好了步入正题,说一下我的入门经历:最开始公司培训讲了很多模块的知_sap经验

C++中派生类成员变量和基类成员变量同名问题_c++ 在派生类函数中修改基类同名变量-程序员宅基地

文章浏览阅读8.8k次,点赞5次,收藏18次。1.当派生类存在与基类同名的成员变量时候,派生类的成员会隐藏基类成员,但派生类中存在基类成员的拷贝,要显示的访问BASE::date member#include <iostream>using namespace std;class Base{ public: int a = 10; void print() { cout &..._c++ 在派生类函数中修改基类同名变量

android中 @,?, xmlns, tools 的意义_@xmlns-程序员宅基地

文章浏览阅读523次。一.@代表引用资源1.引用自定义资源。格式:@[package:]type/nameandroid:text=”@string/hello”2.引用系统资源。格式:@android:type/nameandroid:textColor="@android:color/opaque_red"注意:其实@android:type/name是@[package:]type/name 的一个子类二.@*代_@xmlns

随便推点

挑战杯 opencv 图像识别 指纹识别 - python-程序员宅基地

文章浏览阅读4.3k次,点赞26次,收藏39次。。

PAT乙级考试经验分享_pat乙级证书对复试有帮助吗-程序员宅基地

文章浏览阅读1.7w次,点赞8次,收藏44次。主要介绍了PAT乙级考试从报名到准备到考试中的小技巧等相关经验_pat乙级证书对复试有帮助吗

高德地图--获取poi数据_android 高德地图 根据经纬度获取poiitem-程序员宅基地

文章浏览阅读1.4w次。根据输入的关键字进行Poi搜索,点击搜索到的结果列表中的一项,返回显示和定位页,定位并显示该地址的详细信息;/** 售后地图* Created by wangchm on 2017/4/25 0031.* */public class SaleMapActivity extends AppCompatActivity implements GeocodeSearch.OnG_android 高德地图 根据经纬度获取poiitem

信息孤岛的形成与治理_两个独立在计算机系统上的应用系统,解决信息孤岛的流程图-程序员宅基地

文章浏览阅读1.6w次,点赞11次,收藏29次。在上篇文章《漫谈集成》中提到有业务的地方就有系统,有系统的地方必有集成,提到企业在集成方面的问题,总伴随一个高频出现的词语,即信息孤岛。很多人认为信息孤岛只是一个形容词,用来形容企业信息化问题的其中一种现象,却没有人深究到底什么是信息孤岛、它是如何产生及治理的,今天就来深入讨论下信息孤岛的形成与治理。何为孤岛检索信息孤岛给出的解释指相互之间在功能上不关联互助、信息不共享互换以及信息与业务..._两个独立在计算机系统上的应用系统,解决信息孤岛的流程图

联想拯救者笔记本电脑关闭屏幕快捷键_拯救者关闭屏幕-程序员宅基地

文章浏览阅读2.7k次。参考链接:_拯救者关闭屏幕

查看oracle数据库版本_oracle 11g查看版本-程序员宅基地

文章浏览阅读8.4k次。select * from v$version;select banner from sys.v_$version;select * from product_component_version;内容解释Oracle Database 11g Enterprise Edition :数据库版本,11g企业版11.2.0.1.0PL/SQL :Procedural Language/SQL,是oracle中的块结构语言,类似存储过程,过程化语言,对结构化查询语言的过程语言扩展支持。把SQL语_oracle 11g查看版本

推荐文章

热门文章

相关标签