利用spark streaming将kafka topic 数据导入到hbase

4800阅读 0评论2016-04-14 _lele
分类:大数据

概述

本文主要讲述如何将 kafka topic 的数据经spark streaming 导入到hbase. 本文的Example使用scala开发,如果你是写java的朋友,那可能会有点为难了.

可能网上已经有很多教程了, 其中也可能有很多的教程都是使用c/s模式访问hbase, 本文不是使用c/s模式访问hbase的.

开发前准备

安装hadoop, zookeeper, spark, hbase, kafka集群

因为我是使用cdh管理集群的, 安装cdh的教程请参见: 

kafka集群没有使用cdh的,所以是独立安装的. 安装kafka请参见: 

创建kafka topic: users, 并且测试本地是否可以生产消息和消费消息.

创建工程和导入需要的库

使用idea创建工程, 在工程的根目录下创建lib目录. 将spark-assembly-1.5.1-hadoop2.6.0.jar移到lib里, 因为我的集群使用的spark的版本是1.5.1的.

这里没有使用sbt来管理spark的库, 如果你需要, 可以修改build.sbt的spark的版本.或者加入spark 的mvn依赖.

导入hbrdd, hbrdd项目参见:  这里有详细的安装,使用教程.

使用idea本地提交spark程序到远程集群运行

如何在idea上打包并提交到集群上运行请参见: 

项目地址和源码

project src: 

上一篇:linux c 语言修改进程名字
下一篇:没有了