原理
如何仔细阅读过关于Flume、Kafka、Storm的介绍,就会知道,在他们各自之间对外交互发送消息的原理。
在后面的例子中,主要对Flume的sink进行重构,调用kafka的消费生产者(producer)发送消息;在Storm的spout中继承IRichSpout接口,调用kafka的消息消费者(Consumer)来接收消息,然后经过几个自定义的Bolt,将自定义的内容进行输出。
kafka常用命令
以下是kafka常用命令行总结:
1 | 1、kafka服务启动 |
1 | [hadoop@hadoop01 bin]$ kafka-topics.sh --create --zookeeper hadoop01,hadoop02,hadoop03 --replication-factor 1 --partitions 3 --topic hadoop01 |
要注意source的使用;
在root下使用之后有时需要在hadoop用户下再source一次才可以;
ETL工具~Kettle调研 2017.2
Kettle
kettle是其中Pentaho默认的ETL工具,下图为Pentaho的使用情况
厦门大学数据库实验室教程
有几个坑
SparkSQL context 在执行sql语句时,现在使用spark.sql()替换sqlContext.sal()
开源ETL工具(Kettle) V5.1.0 免费Spoon版
http://www.cr173.com/soft/30051.html
ETL工具大全,你了解多少
http://bbs.csdn.net/topics/390349305
Kettle_抽取数据举例
http://blog.csdn.net/huangyanlong/article/details/42264543