在今天的信息时代,数据是价值的体现。随着各种业务系统的兴起,大量的数据积累在数据库中,如何将这些数据充分利用,成为了企业面临的迫切需求。SQOOP作为一款优秀的数据交互工具,为企业解决了数据连通的问题,实现了快速抽取数据,充分利用企业的数据资产。
站在用户的角度思考问题,与客户深入沟通,找到绥滨网站设计与绥滨网站推广的解决方案,凭借多年的经验,让设计与互联网技术结合,创造个性化、用户体验好的作品,建站类型包括:成都网站制作、做网站、企业官网、英文网站、手机端网站、网站推广、域名申请、网页空间、企业邮箱。业务覆盖绥滨地区。
SQOOP是一个用于将关系型数据库中的数据导入Hadoop的工具。它可以将关系型数据存入到Hadoop中,并允许使用不同的工具进行数据处理和分析。SQOOP可通过JDBC来连接各种不同类型的关系型数据库,并允许大规模地转移数据。SQOOP使用MySQL的JDBC驱动作为默认的连接器,也支持其他常用的JDBC连接器,如Oracle、DB2、Sybase等。
SQOOP的典型使用场景包括:
1、从关系型数据库中导入数据到Hadoop。在进行数据分析和处理前,需要将数据从关系型数据库中导入到Hadoop平台。SQOOP可帮助您快速导入数据,从而可以使用Hadoop的各种数据分析和处理工具。
2、将Hadoop中的数据导出到关系型数据库。当您需要将Hadoop中的数据导出到关系型数据库中进行处理和分析时,也可以使用SQOOP来实现。
3、增量数据传输。当关系型数据库中的数据发生变化时,需要将这些变化同步到Hadoop平台上。SQOOP可以帮助您实现增量数据传输,从而保证您在Hadoop上使用的数据始终是最新的。
SQOOP的使用对于企业来说,有着很多的好处:
1、提高数据利用价值。将关系型数据库中的数据导入到Hadoop平台上,可以通过使用Hadoop的各种数据处理和分析工具,进一步挖掘数据价值,从而更好地服务于企业的业务。
2、提高数据处理效率。利用SQOOP将数据导入到Hadoop平台上,并使用Hadoop的分布式计算和存储机制进行数据处理,可以大幅提高数据处理效率。
3、保证数据一致性。通过使用SQOOP实现增量数据传输,可以保证Hadoop平台上使用的数据总是最新的,从而保证了数据的一致性。
如何使用SQOOP来实现数据连通呢?SQOOP的具体使用流程如下:
1、安装和配置SQOOP。您需要在Hadoop平台上安装和配置SQOOP,并确保您的环境符合SQOOP的系统要求。
2、连接关系型数据库。使用SQOOP连接您需要从中导入数据的关系型数据库,并配置合适的数据连接参数。
3、导入数据到Hadoop平台。使用SQOOP将关系型数据库中的数据导入到Hadoop平台上,您可以选择将所有数据导入,也可以根据某个特定的条件进行筛选。
4、使用Hadoop分析和处理数据。将数据导入到Hadoop平台上后,您可以使用Hadoop的各种工具进行数据分析和处理,以挖掘数据的价值。
:SQOOP作为Hadoop生态圈中的关键组件,在数据交互方面具有很强的优势。它可以实现关系型数据库与Hadoop平台的快速连接,将数据从关系型数据库中导入到Hadoop平台上,并可以使用Hadoop的各种数据分析和处理工具进行数据处理。通过使用SQOOP,企业可以充分利用自身的数据资源,实现数据连通,提高数据利用效率,推动业务发展。
成都网站建设公司-创新互联,建站经验丰富以策略为先导10多年以来专注数字化网站建设,提供企业网站建设,高端网站设计,响应式网站制作,设计师量身打造品牌风格,热线:028-86922220hive中创建dept表
create table dept(
deptno int,
dname string,
loc string
)
row format delimited fields terminated by ‘\t‘ lines terminated by ‘\n‘
stored as textfile;
导入数据:
sqoop import –connect jdbc:oracle:thin:@192.168.1.107:1521:ORCL \
–username SCOTT –password tiger \
–table DEPT \
–hive-overwrite –hive-import –hive-table dept \
–fields-terminated-by ‘\t‘ –lines-terminated-by ‘\n‘ \
-m 3;
HIVE导出到ORACLE
需要分两步:
之一步:族数先写入到hdfs
insert overwrite directory ‘/user/hadoop/DEPT_HIVE_EXPORT‘ select * from dept;
第二步:由hdfs导出到oracle
导出到数据库时,要确保表已经在数据库中存在,否则报错。
create table DEPT_DEMO as select * from DEPT where 1=2;
sqoop export –connect jdbc:oracle:thin:@192.168.1.107:1521:ORCL \
–username SCOTT –password tiger \
–table DEPT_DEMO \
–export-dir /user/hadoop/DEPT_HIVE_EXPORT \
–fields-terminated-by ‘\001‘ \
-m 2;
注:从hive导出到hdfs的分隔符不是,而是\001;如果不指定分隔符,则报错:Caused by: java.lang.NumberFormatException
一、Mysql与HDFS互导数据
环境:
宿主机器操作系统为Win7,Mysql安装耐桥在宿主机上,宿主机地址为192.168.66.96
3台虚拟机操作系统为Ubuntu-12.04.1-32位
三台虚拟机已成功安装Hadoop,并实现免昌穗猛密钥互访,配hosts为:
192.168.66.91 masternode
192.168.66.92 slavenode1
192.168.66.93 slavenode2
/etc/profile已配置好必备环境变量HADOOP_HOME,JAVA_HOME
实验在masternode上进行,已成功连接mysql
步骤一,下载安装包:
我安装的Hadoop版本是原生hadoop-0.20.203.0,SQOOP不支持此版本,可使用CDH3版本hadoop,也可以通过拷贝相应的包到sqoop-1.2.0-CDH3B4/lib下,依然可以使用。
下载相关文件:
sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2-CDH3B4.jar,所以你需要下载hadoop- 0.20.2-CDH3B4.tar.gz,解压缩后将hadoop-0.20.2-CDH3B4/hadoop-core-0.20.2- CDH3B4.jar复制到sqoop-1.2.0-CDH3B4/lib中。
另外,sqoop导入mysql数据运行过程中依赖mysql-connector-java-*.jar,所以你需要下载mysql-connector-java-*.jar并复制到sqoop-1.2.0-CDH3B4/lib中。
步骤二,相关配置:
修改SQOOP的文件configure-sqoop,注释掉hbase和zookeeper检查(除非你准备使用HABASE等HADOOP上的组件) #if ; then
# echo “Error: $HBASE_HOME does not exist!”
# echo ‘Please set $HBASE_HOME to the root of your HBase installation.’
# exit 1
#fi
#if ; then
# echo “Error: $ZOOKEEPER_HOME does not exist!”
# echo ‘Please set $ZOOKEEPER_HOME to the root of your ZooKeeper installation.’
# exit 1
#fi
修改/etc/profile环境变量文件(su root之后,sudo gedit /etc/profile):
添加 export SQOOP_HOME=/home/grid/sqoop
在原有PATH后添加 :$SQOOP_HOME/bin
步骤三,在mysql中建立测试用户,测试表和数据,并测试sqoop连接mysql:
创建用户sqoop并授权:
grant all privileges on *.* to ‘sqoop’@’%’ identified by ‘sqoop’ with grant option;
创建表空间(schema)sqoop,并创建测试表:
create table students (
id int not null primary key,
name varchar(20),
age int)
插入测试数据:
insert into students values(‘10001′,’liyang’,29);
insert into students values(‘10002′,’lion’,28);
insert into students values(‘10003′,’leon’,26);
在masternode测试sqoop能否成功连接宿主机器上的mysql:
sqoop list-tables –connect jdbc: –username sqoop –password sqoop
如果能正确显示出sqoop表空间中的students表,就说明sqoop已经可以成功连接mysql!
步骤四,将mysql中sqoop表空间的students表的三行数据导入HDFS:
启动hadoop:
start-all.sh
用jps验证启动是否成功
显示正在运行以下进程即为启动成功:
2820 SecondaryNameNode
4539 Jps
2887 JobTracker
2595 NameNode
从mysql导入数据,运行如下命令:
sqoop import –connect jdbc: –username sqoop –password sqoop –table students -m 1
验证导入数据是否成功:
若导入成功,运行 hadoop dfs -ls 将能看到根目录/user/grid/下有以表名命名的文件夹students
运行 hadoop dfs -ls /user/grid/students 能看到该文件夹中包含文件:/user/grid/students/part-m-00000
运行 hadoop dfs -cat /user/grid/students/part-m就能看到该文件已经包含mysql中students表的三行数据:
10001,liyang,29
10002,lion,28
10003,leon,26
步骤五,将HDFS中的数据导入Mysql的students表中:
首先将mysql的students表数据清空:
delete from students;
然后在masternode上执行导出数据命令:
sqoop export –connect jdbc: –username sqoop –password sqoop –table students –export-dir
若成功,在mysql中会看到students表中的数据恢复了!
注意:过程中可能会因为slavenode的50010端口没打开而报错,需用root用户通过sudo ufw allow 50010命令打开端口!
二、Mysql与Hbase互导数据
将mysql的数据导入hbase的命令格式为:
sqoop import –connect jdbc: –username –password password –table datatable –hbase-create-table –hbase-table hbase_tablename –column-family col_fam_name –hbase-row-key key_col_name
其中 ,databaseName 和datatable 是mysql的数据库和表名,hbase_tablename是要导成hbase的表名,key_col_name可以指定datatable中哪一列作为hbase新表的rowkey,col_fam_name是除rowkey之外的所有列的列族名
例如:可通过如下命令将Mysql中的students表导入到Hbase中:
/home/grid/sqoop/bin/sqoop import –connect jdbc: –username sqoop –password liyang16 –table students –hbase-create-table –hbase-table students –column-family stuinfo –hbase-row-key id
成功执行后,可在hbase中用以下命令查看结果:
hbase(main):011:0> scan ‘students’
ROW COLUMN+CELL
10001 column=stuinfo:age, timestamp=, value=29
10001 column=stuinfo:name, timestamp=, value=liyang
10002 column=stuinfo:age, timestamp=, value=28
10002 column=stuinfo:name, timestamp=, value=lion
10003 column=stuinfo:age, timestamp=, value=26
10003 column=stuinfo:name, timestamp=, value=leon
3 row(s) in 0.0900 seconds
三、Oracle与Hbase互导数据
将Oracle中的dept表(列为id,name,addr)导出至hbase中的dept表(行键为id,列族为deptinfo)
sqoop import –append –connect jdbc:oracle:thin:@192.168.66.90:1521:orcl –username test –password test –m 1 –table dept –columns id,name,addr –hbase-create-table –hbase-table dept –hbase-row-key id –column-family deptinfo
1,rmdbs to hadoop 很简单,使用一条命令
sqoop import –jar-file (你的jar包) –class-name (classname) –connect (mysql实例) –username (用户名) –password (密码) -table (表名) -hbase-table (hbase表名) -column-family (familyColumn) -hbase-row-key (hbase rowkey) –hbase-create-table
2,hadoop to rmdbs也很简单,做一个mapreduce,特漏液别注意map的返野物input参数是
ImmutableBytesWritable,format 一下数据,然后将format后的数据通脊罩过jdbc 填充到rmdbs,不过要控制好速度,否则rmdbs吃不消。
可以参考例子:
关于sqoop能实时抽取数据库的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。
成都网站建设选创新互联(☎:028-86922220),专业从事成都网站制作设计,高端小程序APP定制开发,成都网络营销推广等一站式服务。
网页名称:SQOOP实时抽取数据库,解放数据迅速连通(sqoop能实时抽取数据库)
本文链接:http://www.csdahua.cn/qtweb/news26/260626.html
网站建设、网络推广公司-快上网,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 快上网