更换图片源
This commit is contained in:
parent
0d6f0c8cc6
commit
7bcf53a7b2
28
README.md
28
README.md
@ -2,7 +2,7 @@
|
||||
|
||||
|
||||
|
||||
<div align="center"> <img width="414px" src="pictures/bigdata-notes-icon.png"/> </div>
|
||||
<div align="center"> <img width="414px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/bigdata-notes-icon.png"/> </div>
|
||||
<br/>
|
||||
|
||||
**大数据入门指南**
|
||||
@ -11,18 +11,18 @@
|
||||
|
||||
<table>
|
||||
<tr>
|
||||
<th><img width="50px" src="pictures/hadoop.jpg"></th>
|
||||
<th><img width="50px" src="pictures/hive.jpg"></th>
|
||||
<th><img width="50px" src="pictures/spark.jpg"></th>
|
||||
<th><img width="50px" src="pictures/storm.png"></th>
|
||||
<th><img width="50px" src="pictures/flink.png"></th>
|
||||
<th><img width="50px" src="pictures/hbase.png"></th>
|
||||
<th><img width="50px" src="pictures/kafka.png"></th>
|
||||
<th><img width="50px" src="pictures/zookeeper.jpg"></th>
|
||||
<th><img width="50px" src="pictures/flume.png"></th>
|
||||
<th><img width="50px" src="pictures/sqoop.png"></th>
|
||||
<th><img width="50px" src="pictures/azkaban.png"></th>
|
||||
<th><img width="50px" src="pictures/scala.jpg"></th>
|
||||
<th><img width="50px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hadoop.jpg"></th>
|
||||
<th><img width="50px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hive.jpg"></th>
|
||||
<th><img width="50px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark.jpg"></th>
|
||||
<th><img width="50px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/storm.png"></th>
|
||||
<th><img width="50px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink.png"></th>
|
||||
<th><img width="50px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hbase.png"></th>
|
||||
<th><img width="50px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/kafka.png"></th>
|
||||
<th><img width="50px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/zookeeper.jpg"></th>
|
||||
<th><img width="50px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flume.png"></th>
|
||||
<th><img width="50px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/sqoop.png"></th>
|
||||
<th><img width="50px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/azkaban.png"></th>
|
||||
<th><img width="50px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/scala.jpg"></th>
|
||||
</tr>
|
||||
<tr>
|
||||
<td align="center"><a href="#一hadoop">Hadoop</a></td>
|
||||
@ -207,7 +207,7 @@
|
||||
|
||||
<div align="center">
|
||||
<a href = "https://blog.csdn.net/m0_37809146">
|
||||
<img width="200px" src="pictures/blog-logo.png"/>
|
||||
<img width="200px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/blog-logo.png"/>
|
||||
</a>
|
||||
</div>
|
||||
<div align="center"> <a href = "https://blog.csdn.net/m0_37809146"> 欢迎关注我的博客:https://blog.csdn.net/m0_37809146</a> </div>
|
||||
|
@ -27,7 +27,7 @@ Azkaban 主要通过界面上传配置文件来进行任务的调度。它有两
|
||||
|
||||
在 Azkaban 主界面可以创建对应的项目:
|
||||
|
||||
<div align="center"> <img src="../pictures/azkaban-create-project.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/azkaban-create-project.png"/> </div>
|
||||
|
||||
### 2.2 任务配置
|
||||
|
||||
@ -43,29 +43,29 @@ command=echo 'Hello Azkaban!'
|
||||
|
||||
将 `Hello-Azkaban.job ` 打包为 `zip` 压缩文件:
|
||||
|
||||
<div align="center"> <img src="../pictures/azkaban-zip.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/azkaban-zip.png"/> </div>
|
||||
|
||||
通过 Web UI 界面上传:
|
||||
|
||||
<div align="center"> <img src="../pictures/azkaban-upload.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/azkaban-upload.png"/> </div>
|
||||
|
||||
上传成功后可以看到对应的 Flows:
|
||||
|
||||
<div align="center"> <img src="../pictures/azkaban-flows.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/azkaban-flows.png"/> </div>
|
||||
|
||||
### 2.4 执行任务
|
||||
|
||||
点击页面上的 `Execute Flow` 执行任务:
|
||||
|
||||
<div align="center"> <img src="../pictures/azkaban-execute.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/azkaban-execute.png"/> </div>
|
||||
|
||||
### 2.5 执行结果
|
||||
|
||||
点击 `detail` 可以查看到任务的执行日志:
|
||||
|
||||
<div align="center"> <img src="../pictures/azkaban-successed.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/azkaban-successed.png"/> </div>
|
||||
|
||||
<div align="center"> <img src="../pictures/azkaban-log.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/azkaban-log.png"/> </div>
|
||||
|
||||
## 三、多任务调度
|
||||
|
||||
@ -114,17 +114,17 @@ dependencies=Task-D
|
||||
|
||||
压缩后进行上传,这里需要注意的是一个 Project 只能接收一个压缩包,这里我还沿用上面的 Project,默认后面的压缩包会覆盖前面的压缩包:
|
||||
|
||||
<div align="center"> <img src="../pictures/azkaban-task-abcde-zip.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/azkaban-task-abcde-zip.png"/> </div>
|
||||
|
||||
### 3.3 依赖关系
|
||||
|
||||
多个任务存在依赖时,默认采用最后一个任务的文件名作为 Flow 的名称,其依赖关系如图:
|
||||
|
||||
<div align="center"> <img src="../pictures/azkaban-dependencies.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/azkaban-dependencies.png"/> </div>
|
||||
|
||||
### 3.4 执行结果
|
||||
|
||||
<div align="center"> <img src="../pictures/azkaban-task-abcde.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/azkaban-task-abcde.png"/> </div>
|
||||
|
||||
从这个案例可以看出,Flow1.0 无法通过一个 job 文件来完成多个任务的配置,但是 Flow 2.0 就很好的解决了这个问题。
|
||||
|
||||
@ -139,7 +139,7 @@ command=/usr/app/hadoop-2.6.0-cdh5.15.2/bin/hadoop fs -ls /
|
||||
|
||||
执行结果:
|
||||
|
||||
<div align="center"> <img src="../pictures/azkaban-hdfs.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/azkaban-hdfs.png"/> </div>
|
||||
|
||||
## 五、调度MR作业
|
||||
|
||||
@ -152,7 +152,7 @@ command=/usr/app/hadoop-2.6.0-cdh5.15.2/bin/hadoop jar /usr/app/hadoop-2.6.0-cdh
|
||||
|
||||
执行结果:
|
||||
|
||||
<div align="center"> <img src="../pictures/azkaban-mr.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/azkaban-mr.png"/> </div>
|
||||
|
||||
## 六、调度Hive作业
|
||||
|
||||
@ -185,25 +185,25 @@ desc emp;
|
||||
|
||||
打包的时候将 `job` 文件与 `sql` 文件一并进行打包:
|
||||
|
||||
<div align="center"> <img src="../pictures/azkaban-hive.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/azkaban-hive.png"/> </div>
|
||||
|
||||
执行结果如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/azkaban-hive-result.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/azkaban-hive-result.png"/> </div>
|
||||
|
||||
## 七、在线修改作业配置
|
||||
|
||||
在测试时,我们可能需要频繁修改配置,如果每次修改都要重新打包上传,这会比较麻烦。所以 Azkaban 支持配置的在线修改,点击需要修改的 Flow,就可以进入详情页面:
|
||||
|
||||
<div align="center"> <img src="../pictures/azkaban-project-edit.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/azkaban-project-edit.png"/> </div>
|
||||
|
||||
在详情页面点击 `Eidt` 按钮可以进入编辑页面:
|
||||
|
||||
<div align="center"> <img src="../pictures/azkaban-edit.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/azkaban-edit.png"/> </div>
|
||||
|
||||
在编辑页面可以新增配置或者修改配置:
|
||||
|
||||
<div align="center"> <img src="../pictures/azkaban-click-edit.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/azkaban-click-edit.png"/> </div>
|
||||
|
||||
## 附:可能出现的问题
|
||||
|
||||
@ -213,7 +213,7 @@ desc emp;
|
||||
Cannot request memory (Xms 0 kb, Xmx 0 kb) from system for job
|
||||
```
|
||||
|
||||
<div align="center"> <img src="../pictures/azkaban-memory.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/azkaban-memory.png"/> </div>
|
||||
|
||||
如果你的执行主机没办法增大内存,那么可以通过修改 `plugins/jobtypes/` 目录下的 `commonprivate.properties` 文件来关闭内存检查,配置如下:
|
||||
|
||||
|
@ -198,7 +198,7 @@ azkaban-flow-version: 2.0
|
||||
|
||||
### 3.2 打包上传
|
||||
|
||||
<div align="center"> <img src="../pictures/azkaban-simple.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/azkaban-simple.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -206,7 +206,7 @@ azkaban-flow-version: 2.0
|
||||
|
||||
由于在 1.0 版本中已经介绍过 Web UI 的使用,这里就不再赘述。对于 1.0 和 2.0 版本,只有配置方式有所不同,其他上传执行的方式都是相同的。执行结果如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/azkaban-simle-result.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/azkaban-simle-result.png"/> </div>
|
||||
|
||||
## 四、多任务调度
|
||||
|
||||
@ -281,11 +281,11 @@ nodes:
|
||||
|
||||
内嵌流的 DAG 图如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/azkaban-embeded-flow.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/azkaban-embeded-flow.png"/> </div>
|
||||
|
||||
执行情况如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/azkaban-embeded-success.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/azkaban-embeded-success.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -32,7 +32,7 @@ Azkaban 产生于 LinkedIn,并经过多年生产环境的检验,它具备以
|
||||
|
||||
Azkaban 的设计理念是在保证功能实现的基础上兼顾易用性,其页面风格清晰明朗,下面是其 WEB UI 界面:
|
||||
|
||||
<div align="center"> <img src="../pictures/azkaban-web.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/azkaban-web.png"/> </div>
|
||||
|
||||
## 二、Azkaban 和 Oozie
|
||||
|
||||
|
@ -163,7 +163,7 @@ bin/kafka-console-consumer.sh --bootstrap-server hadoop001:9092 --topic flink-st
|
||||
|
||||
在 Kafka 生产者上发送消息到 Flink 程序,观察 Flink 程序转换后的输出情况,具体如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/flink-kafka-producer-consumer.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-kafka-producer-consumer.png"/> </div>
|
||||
|
||||
|
||||
可以看到 Kafka 生成者发出的数据已经被 Flink 程序正常接收到,并经过转换后又输出到 Kafka 对应的 Topic 上。
|
||||
@ -172,7 +172,7 @@ bin/kafka-console-consumer.sh --bootstrap-server hadoop001:9092 --topic flink-st
|
||||
|
||||
除了使用内置的第三方连接器外,Flink 还支持使用自定义的 Sink 来满足多样化的输出需求。想要实现自定义的 Sink ,需要直接或者间接实现 SinkFunction 接口。通常情况下,我们都是实现其抽象类 RichSinkFunction,相比于 SinkFunction ,其提供了更多的与生命周期相关的方法。两者间的关系如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/flink-richsink.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-richsink.png"/> </div>
|
||||
|
||||
|
||||
这里我们以自定义一个 FlinkToMySQLSink 为例,将计算结果写出到 MySQL 数据库中,具体步骤如下:
|
||||
@ -251,7 +251,7 @@ env.execute();
|
||||
|
||||
启动程序,观察数据库写入情况:
|
||||
|
||||
<div align="center"> <img src="../pictures/flink-mysql-sink.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-mysql-sink.png"/> </div>
|
||||
|
||||
|
||||
数据库成功写入,代表自定义 Sink 整合成功。
|
||||
|
@ -154,7 +154,7 @@ Exception in thread "main" java.lang.IllegalArgumentException: Source: 1 is not
|
||||
|
||||
如果你想要实现具有并行度的输入流,则需要实现 ParallelSourceFunction 或 RichParallelSourceFunction 接口,其与 SourceFunction 的关系如下图:
|
||||
|
||||
<div align="center"> <img src="../pictures/flink-RichParallelSourceFunction.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-RichParallelSourceFunction.png"/> </div>
|
||||
ParallelSourceFunction 直接继承自 ParallelSourceFunction,具有并行度的功能。RichParallelSourceFunction 则继承自 AbstractRichFunction,同时实现了 ParallelSourceFunction 接口,所以其除了具有并行度的功能外,还提供了额外的与生命周期相关的方法,如 open() ,closen() 。
|
||||
|
||||
## 三、Streaming Connectors
|
||||
@ -269,10 +269,10 @@ bin/kafka-console-producer.sh --broker-list hadoop001:9092 --topic flink-stream-
|
||||
|
||||
在 Producer 上输入任意测试数据,之后观察程序控制台的输出:
|
||||
|
||||
<div align="center"> <img src="../pictures/flink-kafka-datasource-producer.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-kafka-datasource-producer.png"/> </div>
|
||||
程序控制台的输出如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/flink-kafka-datasource-console.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-kafka-datasource-console.png"/> </div>
|
||||
可以看到已经成功接收并打印出相关的数据。
|
||||
|
||||
|
||||
|
@ -234,7 +234,7 @@ dataStream.rescale();
|
||||
|
||||
ReScale 这个单词具有重新缩放的意义,其对应的操作也是如此,具体如下:如果上游 operation 并行度为 2,而下游的 operation 并行度为 6,则其中 1 个上游的 operation 会将元素分发到 3 个下游 operation,另 1 个上游 operation 则会将元素分发到另外 3 个下游 operation。反之亦然,如果上游的 operation 并行度为 6,而下游 operation 并行度为 2,则其中 3 个上游 operation 会将元素分发到 1 个下游 operation,另 3 个上游 operation 会将元素分发到另外 1 个下游operation:
|
||||
|
||||
<div align="center"> <img src="../pictures/flink-Rescaling.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-Rescaling.png"/> </div>
|
||||
|
||||
|
||||
### 3.4 Broadcasting [DataStream → DataStream]
|
||||
|
@ -23,7 +23,7 @@ Time Windows 用于以时间为维度来进行数据聚合,具体分为以下
|
||||
|
||||
滚动窗口 (Tumbling Windows) 是指彼此之间没有重叠的窗口。例如:每隔1小时统计过去1小时内的商品点击量,那么 1 天就只能分为 24 个窗口,每个窗口彼此之间是不存在重叠的,具体如下:
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/flink-tumbling-windows.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-tumbling-windows.png"/> </div>
|
||||
|
||||
|
||||
这里我们以词频统计为例,给出一个具体的用例,代码如下:
|
||||
@ -46,7 +46,7 @@ env.execute("Flink Streaming");
|
||||
|
||||
测试结果如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/flink-window-word-count.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-window-word-count.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -55,7 +55,7 @@ env.execute("Flink Streaming");
|
||||
|
||||
滑动窗口用于滚动进行聚合分析,例如:每隔 6 分钟统计一次过去一小时内所有商品的点击量,那么统计窗口彼此之间就是存在重叠的,即 1天可以分为 240 个窗口。图示如下:
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/flink-sliding-windows.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-sliding-windows.png"/> </div>
|
||||
|
||||
|
||||
可以看到 window 1 - 4 这四个窗口彼此之间都存在着时间相等的重叠部分。想要实现滑动窗口,只需要在使用 timeWindow 方法时额外传递第二个参数作为滚动时间即可,具体如下:
|
||||
@ -69,7 +69,7 @@ timeWindow(Time.minutes(1),Time.seconds(3))
|
||||
|
||||
当用户在进行持续浏览时,可能每时每刻都会有点击数据,例如在活动区间内,用户可能频繁的将某类商品加入和移除购物车,而你只想知道用户本次浏览最终的购物车情况,此时就可以在用户持有的会话结束后再进行统计。想要实现这类统计,可以通过 Session Windows 来进行实现。
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/flink-session-windows.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-session-windows.png"/> </div>
|
||||
|
||||
|
||||
具体的实现代码如下:
|
||||
@ -85,7 +85,7 @@ window(EventTimeSessionWindows.withGap(Time.seconds(10)))
|
||||
|
||||
最后一个窗口是全局窗口, 全局窗口会将所有 key 相同的元素分配到同一个窗口中,其通常配合触发器 (trigger) 进行使用。如果没有相应触发器,则计算将不会被执行。
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/flink-non-windowed.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-non-windowed.png"/> </div>
|
||||
|
||||
|
||||
这里继续以上面词频统计的案例为例,示例代码如下:
|
||||
|
@ -20,7 +20,7 @@
|
||||
|
||||
Flink 分别提供了基于 Java 语言和 Scala 语言的 API ,如果想要使用 Scala 语言来开发 Flink 程序,可以通过在 IDEA 中安装 Scala 插件来提供语法提示,代码高亮等功能。打开 IDEA , 依次点击 `File => settings => plugins` 打开插件安装页面,搜索 Scala 插件并进行安装,安装完成后,重启 IDEA 即可生效。
|
||||
|
||||
<div align="center"> <img src="../pictures/scala-plugin.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/scala-plugin.png"/> </div>
|
||||
|
||||
## 二、Flink 项目初始化
|
||||
|
||||
@ -71,11 +71,11 @@ mvn archetype:generate \
|
||||
|
||||
如果你使用的是开发工具是 IDEA ,可以直接在项目创建页面选择 Maven Flink Archetype 进行项目初始化:
|
||||
|
||||
<div align="center"> <img src="../pictures/flink-maven.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-maven.png"/> </div>
|
||||
|
||||
如果你的 IDEA 没有上述 Archetype, 可以通过点击右上角的 `ADD ARCHETYPE` ,来进行添加,依次填入所需信息,这些信息都可以从上述的 `archetype:generate ` 语句中获取。点击 `OK` 保存后,该 Archetype 就会一直存在于你的 IDEA 中,之后每次创建项目时,只需要直接选择该 Archetype 即可:
|
||||
|
||||
<div align="center"> <img src="../pictures/flink-maven-new.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-maven-new.png"/> </div>
|
||||
|
||||
选中 Flink Archetype ,然后点击 `NEXT` 按钮,之后的所有步骤都和正常的 Maven 工程相同。
|
||||
|
||||
@ -85,7 +85,7 @@ mvn archetype:generate \
|
||||
|
||||
创建完成后的自动生成的项目结构如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/flink-basis-project.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-basis-project.png"/> </div>
|
||||
|
||||
其中 BatchJob 为批处理的样例代码,源码如下:
|
||||
|
||||
@ -149,7 +149,7 @@ object StreamingJob {
|
||||
|
||||
需要特别注意的以上依赖的 `scope` 标签全部被标识为 provided ,这意味着这些依赖都不会被打入最终的 JAR 包。因为 Flink 的安装包中已经提供了这些依赖,位于其 lib 目录下,名为 `flink-dist_*.jar` ,它包含了 Flink 的所有核心类和依赖:
|
||||
|
||||
<div align="center"> <img src="../pictures/flink-lib.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-lib.png"/> </div>
|
||||
|
||||
`scope` 标签被标识为 provided 会导致你在 IDEA 中启动项目时会抛出 ClassNotFoundException 异常。基于这个原因,在使用 IDEA 创建项目时还自动生成了以下 profile 配置:
|
||||
|
||||
@ -193,7 +193,7 @@ object StreamingJob {
|
||||
|
||||
在 id 为 `add-dependencies-for-IDEA` 的 profile 中,所有的核心依赖都被标识为 compile,此时你可以无需改动任何代码,只需要在 IDEA 的 Maven 面板中勾选该 profile,即可直接在 IDEA 中运行 Flink 项目:
|
||||
|
||||
<div align="center"> <img src="../pictures/flink-maven-profile.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-maven-profile.png"/> </div>
|
||||
|
||||
## 四、词频统计案例
|
||||
|
||||
@ -230,7 +230,7 @@ d,d
|
||||
|
||||
本机不需要配置其他任何的 Flink 环境,直接运行 Main 方法即可,结果如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/flink-word-count.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-word-count.png"/> </div>
|
||||
|
||||
### 4.2 流处理示例
|
||||
|
||||
@ -275,7 +275,7 @@ https://flink.apache.org/downloads.html
|
||||
|
||||
Flink 大多数版本都提供有 Scala 2.11 和 Scala 2.12 两个版本的安装包可供下载:
|
||||
|
||||
<div align="center"> <img src="../pictures/flink-download.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-download.png"/> </div>
|
||||
|
||||
下载完成后进行解压即可,Scala Shell 位于安装目录的 bin 目录下,直接使用以下命令即可以本地模式启动:
|
||||
|
||||
@ -285,7 +285,7 @@ Flink 大多数版本都提供有 Scala 2.11 和 Scala 2.12 两个版本的安
|
||||
|
||||
命令行启动完成后,其已经提供了批处理 (benv 和 btenv)和流处理(senv 和 stenv)的运行环境,可以直接运行 Scala Flink 程序,示例如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/flink-scala-shell.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-scala-shell.png"/> </div>
|
||||
|
||||
最后解释一个常见的异常:这里我使用的 Flink 版本为 1.9.1,启动时会抛出如下异常。这里因为按照官方的说明,目前所有 Scala 2.12 版本的安装包暂时都不支持 Scala Shell,所以如果想要使用 Scala Shell,只能选择 Scala 2.11 版本的安装包。
|
||||
|
||||
|
@ -26,14 +26,14 @@ Apache Flink 诞生于柏林工业大学的一个研究性项目,原名 Strato
|
||||
|
||||
Flink 有界数据流和无界数据流:
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/flink-bounded-unbounded.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-bounded-unbounded.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
||||
Spark Streaming 数据流的拆分:
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/streaming-flow.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/streaming-flow.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -42,7 +42,7 @@ Spark Streaming 数据流的拆分:
|
||||
|
||||
Flink 采用分层的架构设计,从而保证各层在功能和职责上的清晰。如下图所示,由上而下分别是 API & Libraries 层、Runtime 核心层以及物理部署层:
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/flink-stack.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-stack.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -66,7 +66,7 @@ Flink 的物理部署层,用于支持在不同平台上部署运行 Flink 应
|
||||
|
||||
在上面介绍的 API & Libraries 这一层,Flink 又进行了更为具体的划分。具体如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/flink-api-stack.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-api-stack.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -96,7 +96,7 @@ Stateful Stream Processing 是最低级别的抽象,它通过 Process Function
|
||||
- **Dispatcher**:负责接收客户端提交的执行程序,并传递给 JobManager 。除此之外,它还提供了一个 WEB UI 界面,用于监控作业的执行情况。
|
||||
- **ResourceManager** :负责管理 slots 并协调集群资源。ResourceManager 接收来自 JobManager 的资源请求,并将存在空闲 slots 的 TaskManagers 分配给 JobManager 执行任务。Flink 基于不同的部署平台,如 YARN , Mesos,K8s 等提供了不同的资源管理器,当 TaskManagers 没有足够的 slots 来执行任务时,它会向第三方平台发起会话来请求额外的资源。
|
||||
|
||||
<div align="center"> <img src="../pictures/flink-application-submission.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-application-submission.png"/> </div>
|
||||
|
||||
|
||||
### 4.2 Task & SubTask
|
||||
@ -105,7 +105,7 @@ Stateful Stream Processing 是最低级别的抽象,它通过 Process Function
|
||||
|
||||
在执行分布式计算时,Flink 将可以链接的操作 (operators) 链接到一起,这就是 Task。之所以这样做, 是为了减少线程间切换和缓冲而导致的开销,在降低延迟的同时可以提高整体的吞吐量。 但不是所有的 operator 都可以被链接,如下 keyBy 等操作会导致网络 shuffle 和重分区,因此其就不能被链接,只能被单独作为一个 Task。 简单来说,一个 Task 就是一个可以链接的最小的操作链 (Operator Chains) 。如下图,source 和 map 算子被链接到一块,因此整个作业就只有三个 Task:
|
||||
|
||||
<div align="center"> <img src="../pictures/flink-task-subtask.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-task-subtask.png"/> </div>
|
||||
|
||||
|
||||
解释完 Task ,我们在解释一下什么是 SubTask,其准确的翻译是: *A subtask is one parallel slice of a task*,即一个 Task 可以按照其并行度拆分为多个 SubTask。如上图,source & map 具有两个并行度,KeyBy 具有两个并行度,Sink 具有一个并行度,因此整个虽然只有 3 个 Task,但是却有 5 个 SubTask。Jobmanager 负责定义和拆分这些 SubTask,并将其交给 Taskmanagers 来执行,每个 SubTask 都是一个单独的线程。
|
||||
@ -114,7 +114,7 @@ Stateful Stream Processing 是最低级别的抽象,它通过 Process Function
|
||||
|
||||
理解了 SubTasks ,我们再来看看其与 Slots 的对应情况。一种可能的分配情况如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/flink-tasks-slots.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-tasks-slots.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -123,14 +123,14 @@ Stateful Stream Processing 是最低级别的抽象,它通过 Process Function
|
||||
|
||||
基于这个原因,Flink 允许多个 subtasks 共享 slots,即使它们是不同 tasks 的 subtasks,但只要它们来自同一个 Job 就可以。假设上面 souce & map 和 keyBy 的并行度调整为 6,而 Slot 的数量不变,此时情况如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/flink-subtask-slots.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-subtask-slots.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
||||
可以看到一个 Task Slot 中运行了多个 SubTask 子任务,此时每个子任务仍然在一个独立的线程中执行,只不过共享一组 Sot 资源而已。那么 Flink 到底如何确定一个 Job 至少需要多少个 Slot 呢?Flink 对于这个问题的处理很简单,默认情况一个 Job 所需要的 Slot 的数量就等于其 Operation 操作的最高并行度。如下, A,B,D 操作的并行度为 4,而 C,E 操作的并行度为 2,那么此时整个 Job 就需要至少四个 Slots 来完成。通过这个机制,Flink 就可以不必去关心一个 Job 到底会被拆分为多少个 Tasks 和 SubTasks。
|
||||
|
||||
<div align="center"> <img src="../pictures/flink-task-parallelism.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-task-parallelism.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -141,7 +141,7 @@ Stateful Stream Processing 是最低级别的抽象,它通过 Process Function
|
||||
|
||||
Flink 的所有组件都基于 Actor System 来进行通讯。Actor system是多种角色的 actor 的容器,它提供调度,配置,日志记录等多种服务,并包含一个可以启动所有 actor 的线程池,如果 actor 是本地的,则消息通过共享内存进行共享,但如果 actor 是远程的,则通过 RPC 的调用来传递消息。
|
||||
|
||||
<div align="center"> <img src="../pictures/flink-process.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-process.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -21,7 +21,7 @@
|
||||
|
||||
相对于其他流计算框架,Flink 一个比较重要的特性就是其支持有状态计算。即你可以将中间的计算结果进行保存,并提供给后续的计算使用:
|
||||
|
||||
<div align="center"> <img width="500px" src="../pictures/flink-stateful-stream.png"/> </div>
|
||||
<div align="center"> <img width="500px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-stateful-stream.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -31,7 +31,7 @@
|
||||
|
||||
算子状态 (Operator State):顾名思义,状态是和算子进行绑定的,一个算子的状态不能被其他算子所访问到。官方文档上对 Operator State 的解释是:*each operator state is bound to one parallel operator instance*,所以更为确切的说一个算子状态是与一个并发的算子实例所绑定的,即假设算子的并行度是 2,那么其应有两个对应的算子状态:
|
||||
|
||||
<div align="center"> <img width="500px" src="../pictures/flink-operator-state.png"/> </div>
|
||||
<div align="center"> <img width="500px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-operator-state.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -39,7 +39,7 @@
|
||||
|
||||
键控状态 (Keyed State) :是一种特殊的算子状态,即状态是根据 key 值进行区分的,Flink 会为每类键值维护一个状态实例。如下图所示,每个颜色代表不同 key 值,对应四个不同的状态实例。需要注意的是键控状态只能在 `KeyedStream` 上进行使用,我们可以通过 `stream.keyBy(...)` 来得到 `KeyedStream` 。
|
||||
|
||||
<div align="center"> <img src="../pictures/flink-keyed-state.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-keyed-state.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -118,7 +118,7 @@ env.execute("Managed Keyed State");
|
||||
|
||||
输出如下结果如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/flink-state-management.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-state-management.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -232,13 +232,13 @@ env.execute("Managed Keyed State");
|
||||
|
||||
此时输出如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/flink-operator-state-para1.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-operator-state-para1.png"/> </div>
|
||||
|
||||
|
||||
|
||||
在上面的调用代码中,我们将程序的并行度设置为 1,可以看到三次输出中状态实例的 hashcode 全是一致的,证明它们都同一个状态实例。假设将并行度设置为 2,此时输出如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/flink-operator-state-para2.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-operator-state-para2.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -250,7 +250,7 @@ env.execute("Managed Keyed State");
|
||||
|
||||
为了使 Flink 的状态具有良好的容错性,Flink 提供了检查点机制 (CheckPoints) 。通过检查点机制,Flink 定期在数据流上生成 checkpoint barrier ,当某个算子收到 barrier 时,即会基于当前状态生成一份快照,然后再将该 barrier 传递到下游算子,下游算子接收到该 barrier 后,也基于当前状态生成一份快照,依次传递直至到最后的 Sink 算子上。当出现异常后,Flink 就可以根据最近的一次的快照数据将所有算子恢复到先前的状态。
|
||||
|
||||
<div align="center"> <img src="../pictures/flink-stream-barriers.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-stream-barriers.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -297,7 +297,7 @@ bin/flink savepoint :jobId [:targetDirectory]
|
||||
|
||||
默认情况下,所有的状态都存储在 JVM 的堆内存中,在状态数据过多的情况下,这种方式很有可能导致内存溢出,因此 Flink 该提供了其它方式来存储状态数据,这些存储方式统一称为状态后端 (或状态管理器):
|
||||
|
||||
<div align="center"> <img src="../pictures/flink-checkpoints-backend.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-checkpoints-backend.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -17,7 +17,7 @@
|
||||
|
||||
以实时流处理项目为例,由于采集的数据量可能存在峰值和峰谷,假设是一个电商项目,那么峰值通常出现在秒杀时,这时如果直接将 Flume 聚合后的数据输入到 Storm 等分布式计算框架中,可能就会超过集群的处理能力,这时采用 Kafka 就可以起到削峰的作用。Kafka 天生为大数据场景而设计,具有高吞吐的特性,能很好地抗住峰值数据的冲击。
|
||||
|
||||
<div align="center"> <img src="../pictures/flume-kafka.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flume-kafka.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -109,8 +109,8 @@ flume-ng agent \
|
||||
|
||||
向监听的 `/tmp/kafka.log ` 文件中追加内容,查看 Kafka 消费者的输出:
|
||||
|
||||
<div align="center"> <img src="../pictures/flume-kafka-01.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flume-kafka-01.png"/> </div>
|
||||
|
||||
可以看到 `flume-kafka` 主题的消费端已经收到了对应的消息:
|
||||
|
||||
<div align="center"> <img src="../pictures/flume-kafka-2.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flume-kafka-2.png"/> </div>
|
||||
|
@ -23,7 +23,7 @@ Apache Flume 是一个分布式,高可用的数据收集系统。它可以从
|
||||
|
||||
|
||||
|
||||
<div align="center"> <img src="../pictures/flume-architecture.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flume-architecture.png"/> </div>
|
||||
|
||||
### 2.1 基本架构
|
||||
|
||||
@ -80,7 +80,7 @@ Flume 支持多种架构模式,分别介绍如下
|
||||
|
||||
|
||||
|
||||
<div align="center"> <img src="../pictures/flume-multi-agent-flow.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flume-multi-agent-flow.png"/> </div>
|
||||
|
||||
<br/>
|
||||
|
||||
@ -88,7 +88,7 @@ Flume 支持跨越多个 Agent 的数据传递,这要求前一个 Agent 的 Si
|
||||
|
||||
### 3.2 Consolidation
|
||||
|
||||
<div align="center"> <img src="../pictures/flume-consolidation.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flume-consolidation.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -98,7 +98,7 @@ Flume 支持跨越多个 Agent 的数据传递,这要求前一个 Agent 的 Si
|
||||
|
||||
### 3.3 Multiplexing the flow
|
||||
|
||||
<div align="center"> <img src="../pictures/flume-multiplexing-the-flow.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flume-multiplexing-the-flow.png"/> </div>
|
||||
|
||||
Flume 支持从一个 Source 向多个 Channel,也就是向多个 Sink 传递事件,这个操作称之为 `Fan Out`(扇出)。默认情况下 `Fan Out` 是向所有的 Channel 复制 `Event`,即所有 Channel 收到的数据都是相同的。同时 Flume 也支持在 `Source` 上自定义一个复用选择器 (multiplexing selector) 来实现自定义的路由规则。
|
||||
|
||||
@ -201,11 +201,11 @@ flume-ng agent \
|
||||
|
||||
向文件中追加数据:
|
||||
|
||||
<div align="center"> <img src="../pictures/flume-example-1.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flume-example-1.png"/> </div>
|
||||
|
||||
控制台的显示:
|
||||
|
||||
<div align="center"> <img src="../pictures/flume-example-2.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flume-example-2.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -263,7 +263,7 @@ flume-ng agent \
|
||||
# cp log.txt logs/
|
||||
```
|
||||
|
||||
<div align="center"> <img src="../pictures/flume-example-3.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flume-example-3.png"/> </div>
|
||||
|
||||
查看上传到 HDFS 上的文件内容与本地是否一致:
|
||||
|
||||
@ -271,7 +271,7 @@ flume-ng agent \
|
||||
# hdfs dfs -cat /flume/events/19-04-09/13/log.txt.1554788567801
|
||||
```
|
||||
|
||||
<div align="center"> <img src="../pictures/flume-example-4.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flume-example-4.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -362,14 +362,14 @@ flume-ng agent \
|
||||
|
||||
这里建议按以上顺序启动,原因是 `avro.source` 会先与端口进行绑定,这样 `avro sink` 连接时才不会报无法连接的异常。但是即使不按顺序启动也是没关系的,`sink` 会一直重试,直至建立好连接。
|
||||
|
||||
<div align="center"> <img src="../pictures/flume-retry.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flume-retry.png"/> </div>
|
||||
|
||||
#### 4.测试
|
||||
|
||||
向文件 `tmp/log.txt` 中追加内容:
|
||||
|
||||
<div align="center"> <img src="../pictures/flume-example-8.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flume-example-8.png"/> </div>
|
||||
|
||||
可以看到已经从 8888 端口监听到内容,并成功输出到控制台:
|
||||
|
||||
<div align="center"> <img src="../pictures/flume-example-9.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flume-example-9.png"/> </div>
|
||||
|
@ -35,7 +35,7 @@
|
||||
|
||||
## 二、HDFS 设计原理
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/hdfsarchitecture.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hdfsarchitecture.png"/> </div>
|
||||
|
||||
### 2.1 HDFS 架构
|
||||
|
||||
@ -56,7 +56,7 @@ HDFS 的 ` 文件系统命名空间 ` 的层次结构与大多数文件系统类
|
||||
|
||||
由于 Hadoop 被设计运行在廉价的机器上,这意味着硬件是不可靠的,为了保证容错性,HDFS 提供了数据复制机制。HDFS 将每一个文件存储为一系列**块**,每个块由多个副本来保证容错,块的大小和复制因子可以自行配置(默认情况下,块大小是 128M,默认复制因子是 3)。
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/hdfsdatanodes.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hdfsdatanodes.png"/> </div>
|
||||
|
||||
### 2.4 数据复制的实现原理
|
||||
|
||||
@ -64,7 +64,7 @@ HDFS 的 ` 文件系统命名空间 ` 的层次结构与大多数文件系统类
|
||||
|
||||
在写入程序位于 `datanode` 上时,就优先将写入文件的一个副本放置在该 `datanode` 上,否则放在随机 `datanode` 上。之后在另一个远程机架上的任意一个节点上放置另一个副本,并在该机架上的另一个节点上放置最后一个副本。此策略可以减少机架间的写入流量,从而提高写入性能。
|
||||
|
||||
<div align="center"> <img src="../pictures/hdfs-机架.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hdfs-机架.png"/> </div>
|
||||
|
||||
如果复制因子大于 3,则随机确定第 4 个和之后副本的放置位置,同时保持每个机架的副本数量低于上限,上限值通常为 `(复制系数 - 1)/机架数量 + 2`,需要注意的是不允许同一个 `dataNode` 上具有同一个块的多个副本。
|
||||
|
||||
@ -128,43 +128,43 @@ HDFS 具有良好的跨平台移植性,这使得其他大数据计算框架都
|
||||
|
||||
### 1. HDFS写数据原理
|
||||
|
||||
<div align="center"> <img src="../pictures/hdfs-write-1.jpg"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hdfs-write-1.jpg"/> </div>
|
||||
|
||||
<div align="center"> <img src="../pictures/hdfs-write-2.jpg"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hdfs-write-2.jpg"/> </div>
|
||||
|
||||
<div align="center"> <img src="../pictures/hdfs-write-3.jpg"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hdfs-write-3.jpg"/> </div>
|
||||
|
||||
|
||||
|
||||
### 2. HDFS读数据原理
|
||||
|
||||
<div align="center"> <img src="../pictures/hdfs-read-1.jpg"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hdfs-read-1.jpg"/> </div>
|
||||
|
||||
|
||||
|
||||
### 3. HDFS故障类型和其检测方法
|
||||
|
||||
<div align="center"> <img src="../pictures/hdfs-tolerance-1.jpg"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hdfs-tolerance-1.jpg"/> </div>
|
||||
|
||||
<div align="center"> <img src="../pictures/hdfs-tolerance-2.jpg"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hdfs-tolerance-2.jpg"/> </div>
|
||||
|
||||
|
||||
|
||||
**第二部分:读写故障的处理**
|
||||
|
||||
<div align="center"> <img src="../pictures/hdfs-tolerance-3.jpg"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hdfs-tolerance-3.jpg"/> </div>
|
||||
|
||||
|
||||
|
||||
**第三部分:DataNode 故障处理**
|
||||
|
||||
<div align="center"> <img src="../pictures/hdfs-tolerance-4.jpg"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hdfs-tolerance-4.jpg"/> </div>
|
||||
|
||||
|
||||
|
||||
**副本布局策略**:
|
||||
|
||||
<div align="center"> <img src="../pictures/hdfs-tolerance-5.jpg"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hdfs-tolerance-5.jpg"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -34,7 +34,7 @@ MapReduce 作业通过将输入的数据集拆分为独立的块,这些块由
|
||||
|
||||
这里以词频统计为例进行说明,MapReduce 处理的流程如下:
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/mapreduceProcess.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/mapreduceProcess.png"/> </div>
|
||||
|
||||
1. **input** : 读取文本文件;
|
||||
|
||||
@ -50,7 +50,7 @@ MapReduce 编程模型中 `splitting` 和 `shuffing` 操作都是由框架实现
|
||||
|
||||
## 三、combiner & partitioner
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/Detailed-Hadoop-MapReduce-Data-Flow-14.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/Detailed-Hadoop-MapReduce-Data-Flow-14.png"/> </div>
|
||||
|
||||
### 3.1 InputFormat & RecordReaders
|
||||
|
||||
@ -68,11 +68,11 @@ MapReduce 编程模型中 `splitting` 和 `shuffing` 操作都是由框架实现
|
||||
|
||||
不使用 combiner 的情况:
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/mapreduce-without-combiners.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/mapreduce-without-combiners.png"/> </div>
|
||||
|
||||
使用 combiner 的情况:
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/mapreduce-with-combiners.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/mapreduce-with-combiners.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -145,7 +145,7 @@ public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritabl
|
||||
|
||||
`WordCountMapper` 对应下图的 Mapping 操作:
|
||||
|
||||
<div align="center"> <img src="../pictures/hadoop-code-mapping.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hadoop-code-mapping.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -187,7 +187,7 @@ public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritab
|
||||
|
||||
如下图,`shuffling` 的输出是 reduce 的输入。这里的 key 是每个单词,values 是一个可迭代的数据类型,类似 `(1,1,1,...)`。
|
||||
|
||||
<div align="center"> <img src="../pictures/hadoop-code-reducer.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hadoop-code-reducer.png"/> </div>
|
||||
|
||||
### 4.4 WordCountApp
|
||||
|
||||
@ -290,7 +290,7 @@ hadoop fs -ls /wordcount/output/WordCountApp
|
||||
hadoop fs -cat /wordcount/output/WordCountApp/part-r-00000
|
||||
```
|
||||
|
||||
<div align="center"> <img src="../pictures/hadoop-wordcountapp.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hadoop-wordcountapp.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -311,11 +311,11 @@ job.setCombinerClass(WordCountReducer.class);
|
||||
|
||||
没有加入 `combiner` 的打印日志:
|
||||
|
||||
<div align="center"> <img src="../pictures/hadoop-no-combiner.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hadoop-no-combiner.png"/> </div>
|
||||
|
||||
加入 `combiner` 后的打印日志如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/hadoop-combiner.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hadoop-combiner.png"/> </div>
|
||||
|
||||
这里我们只有一个输入文件并且小于 128M,所以只有一个 Map 进行处理。可以看到经过 combiner 后,records 由 `3519` 降低为 `6`(样本中单词种类就只有 6 种),在这个用例中 combiner 就能极大地降低需要传输的数据量。
|
||||
|
||||
@ -368,7 +368,7 @@ job.setNumReduceTasks(WordCountDataUtils.WORD_LIST.size());
|
||||
|
||||
执行结果如下,分别生成 6 个文件,每个文件中为对应单词的统计结果:
|
||||
|
||||
<div align="center"> <img src="../pictures/hadoop-wordcountcombinerpartition.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hadoop-wordcountcombinerpartition.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -18,13 +18,13 @@
|
||||
|
||||
**Apache YARN** (Yet Another Resource Negotiator) 是 hadoop 2.0 引入的集群资源管理系统。用户可以将各种服务框架部署在 YARN 上,由 YARN 进行统一地管理和资源分配。
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/yarn-base.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/yarn-base.png"/> </div>
|
||||
|
||||
|
||||
|
||||
## 二、YARN架构
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/Figure3Architecture-of-YARN.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/Figure3Architecture-of-YARN.png"/> </div>
|
||||
|
||||
### 1. ResourceManager
|
||||
|
||||
@ -57,7 +57,7 @@
|
||||
|
||||
## 三、YARN工作原理简述
|
||||
|
||||
<div align="center"> <img src="../pictures/yarn工作原理简图.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/yarn工作原理简图.png"/> </div>
|
||||
|
||||
1. `Client` 提交作业到 YARN 上;
|
||||
|
||||
@ -71,7 +71,7 @@
|
||||
|
||||
## 四、YARN工作原理详述
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/yarn工作原理.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/yarn工作原理.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -410,7 +410,7 @@ public class HBaseUtilsTest {
|
||||
|
||||
2.x 版本相比于 1.x 废弃了一部分方法,关于废弃的方法在源码中都会指明新的替代方法,比如,在 2.x 中创建表时:`HTableDescriptor` 和 `HColumnDescriptor` 等类都标识为废弃,取而代之的是使用 `TableDescriptorBuilder` 和 `ColumnFamilyDescriptorBuilder` 来定义表和列族。
|
||||
|
||||
<div align="center"> <img width="700px" src="../pictures/deprecated.png"/> </div>
|
||||
<div align="center"> <img width="700px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/deprecated.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -715,11 +715,11 @@ Connection 是一个集群连接,封装了与多台服务器(Matser/Region S
|
||||
+ **HBase Master** :主要用于执行 HBaseAdmin 接口的一些操作,例如建表等;
|
||||
+ **HBase RegionServer** :用于读、写数据。
|
||||
|
||||
<div align="center"> <img width="700px" src="../pictures/hbase-arc.png"/> </div>
|
||||
<div align="center"> <img width="700px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hbase-arc.png"/> </div>
|
||||
|
||||
Connection 对象和实际的 Socket 连接之间的对应关系如下图:
|
||||
|
||||
<div align="center"> <img width="700px" src="../pictures/hbase-connection.png"/> </div>
|
||||
<div align="center"> <img width="700px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hbase-connection.png"/> </div>
|
||||
|
||||
> 上面两张图片引用自博客:[连接 HBase 的正确姿势](https://yq.aliyun.com/articles/581702?spm=a2c4e.11157919.spm-cont-list.1.146c27aeFxoMsN%20%E8%BF%9E%E6%8E%A5HBase%E7%9A%84%E6%AD%A3%E7%A1%AE%E5%A7%BF%E5%8A%BF)
|
||||
|
||||
|
@ -57,17 +57,17 @@ Observer 协处理器类似于关系型数据库中的触发器,当发生某
|
||||
|
||||
以上四种类型的 Observer 协处理器均继承自 `Coprocessor` 接口,这四个接口中分别定义了所有可用的钩子方法,以便在对应方法前后执行特定的操作。通常情况下,我们并不会直接实现上面接口,而是继承其 Base 实现类,Base 实现类只是简单空实现了接口中的方法,这样我们在实现自定义的协处理器时,就不必实现所有方法,只需要重写必要方法即可。
|
||||
|
||||
<div align="center"> <img src="../pictures/hbase-coprocessor.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hbase-coprocessor.png"/> </div>
|
||||
|
||||
这里以 `RegionObservers ` 为例,其接口类中定义了所有可用的钩子方法,下面截取了部分方法的定义,多数方法都是成对出现的,有 `pre` 就有 `post`:
|
||||
|
||||
<div align="center"> <img src="../pictures/RegionObserver.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/RegionObserver.png"/> </div>
|
||||
|
||||
</br>
|
||||
|
||||
#### 4. 执行流程
|
||||
|
||||
<div align="center"> <img src="../pictures/RegionObservers-works.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/RegionObservers-works.png"/> </div>
|
||||
|
||||
+ 客户端发出 put 请求
|
||||
+ 该请求被分派给合适的 RegionServer 和 region
|
||||
@ -384,7 +384,7 @@ hadoop fs -put /usr/app/hbase-observer-coprocessor-1.0-SNAPSHOT.jar /hbase
|
||||
hadoop fs -ls /hbase
|
||||
```
|
||||
|
||||
<div align="center"> <img src="../pictures/hbase-cp-hdfs.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hbase-cp-hdfs.png"/> </div>
|
||||
|
||||
### 6.5 加载协处理器
|
||||
|
||||
@ -413,7 +413,7 @@ hbase > desc 'magazine'
|
||||
|
||||
协处理器出现在 `TABLE_ATTRIBUTES` 属性中则代表加载成功,如下图:
|
||||
|
||||
<div align="center"> <img src="../pictures/hbase-cp-load.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hbase-cp-load.png"/> </div>
|
||||
|
||||
### 6.6 测试加载结果
|
||||
|
||||
@ -428,7 +428,7 @@ hbase > get 'magazine','rowkey1','article:content'
|
||||
|
||||
可以看到对于指定列的值已经执行了 append 操作:
|
||||
|
||||
<div align="center"> <img src="../pictures/hbase-cp-helloworld.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hbase-cp-helloworld.png"/> </div>
|
||||
|
||||
插入一组对照数据:
|
||||
|
||||
@ -441,7 +441,7 @@ hbase > get 'magazine','rowkey1','article:author'
|
||||
|
||||
可以看到对于正常的列还是执行 update 操作:
|
||||
|
||||
<div align="center"> <img src="../pictures/hbase-cp-lisi.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hbase-cp-lisi.png"/> </div>
|
||||
|
||||
### 6.7 卸载协处理器
|
||||
1. 卸载协处理器前需要先禁用表
|
||||
@ -467,7 +467,7 @@ hbase > enable 'magazine'
|
||||
hbase > desc 'magazine'
|
||||
```
|
||||
|
||||
<div align="center"> <img src="../pictures/hbase-co-unload.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hbase-co-unload.png"/> </div>
|
||||
|
||||
### 6.8 测试卸载结果
|
||||
|
||||
@ -479,7 +479,7 @@ hbase > put 'magazine', 'rowkey1','article:content','Hello'
|
||||
hbase > get 'magazine','rowkey1','article:content'
|
||||
```
|
||||
|
||||
<div align="center"> <img src="../pictures/hbase-unload-test.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hbase-unload-test.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -79,7 +79,7 @@ hbase org.apache.hadoop.hbase.mapreduce.CopyTable \
|
||||
# hbase org.apache.hadoop.hbase.mapreduce.CopyTable --help
|
||||
```
|
||||
|
||||
<div align="center"> <img src="../pictures/hbase-copy-table.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hbase-copy-table.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -27,7 +27,7 @@
|
||||
|
||||
其次 `Phoenix` 的性能表现也非常优异,`Phoenix` 查询引擎会将 SQL 查询转换为一个或多个 HBase Scan,通过并行执行来生成标准的 JDBC 结果集。它通过直接使用 HBase API 以及协处理器和自定义过滤器,可以为小型数据查询提供毫秒级的性能,为千万行数据的查询提供秒级的性能。同时 Phoenix 还拥有二级索引等 HBase 不具备的特性,因为以上的优点,所以 `Phoenix` 成为了 HBase 最优秀的 SQL 中间层。
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/Phoenix-hadoop.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/Phoenix-hadoop.png"/> </div>
|
||||
|
||||
|
||||
## 二、Phoenix安装
|
||||
@ -85,7 +85,7 @@ start-hbase.sh
|
||||
|
||||
启动后则进入了 Phoenix 交互式 SQL 命令行,可以使用 `!table` 或 `!tables` 查看当前所有表的信息
|
||||
|
||||
<div align="center"> <img src="../pictures/phoenix-shell.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/phoenix-shell.png"/> </div>
|
||||
|
||||
|
||||
## 三、Phoenix 简单使用
|
||||
@ -100,10 +100,10 @@ CREATE TABLE IF NOT EXISTS us_population (
|
||||
CONSTRAINT my_pk PRIMARY KEY (state, city));
|
||||
```
|
||||
|
||||
<div align="center"> <img src="../pictures/Phoenix-create-table.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/Phoenix-create-table.png"/> </div>
|
||||
新建的表会按照特定的规则转换为 HBase 上的表,关于表的信息,可以通过 Hbase Web UI 进行查看:
|
||||
|
||||
<div align="center"> <img src="../pictures/hbase-web-ui-phoenix.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hbase-web-ui-phoenix.png"/> </div>
|
||||
### 3.2 插入数据
|
||||
|
||||
Phoenix 中插入数据采用的是 `UPSERT` 而不是 `INSERT`,因为 Phoenix 并没有更新操作,插入相同主键的数据就视为更新,所以 `UPSERT` 就相当于 `UPDATE`+`INSERT`
|
||||
@ -128,14 +128,14 @@ UPSERT INTO us_population VALUES('CA','San Jose',912332);
|
||||
UPSERT INTO us_population VALUES('NY','New York',999999);
|
||||
```
|
||||
|
||||
<div align="center"> <img src="../pictures/Phoenix-update.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/Phoenix-update.png"/> </div>
|
||||
### 3.4 删除数据
|
||||
|
||||
```sql
|
||||
DELETE FROM us_population WHERE city='Dallas';
|
||||
```
|
||||
|
||||
<div align="center"> <img src="../pictures/Phoenix-delete.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/Phoenix-delete.png"/> </div>
|
||||
### 3.5 查询数据
|
||||
|
||||
```sql
|
||||
@ -145,7 +145,7 @@ GROUP BY state
|
||||
ORDER BY sum(population) DESC;
|
||||
```
|
||||
|
||||
<div align="center"> <img src="../pictures/Phoenix-select.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/Phoenix-select.png"/> </div>
|
||||
|
||||
|
||||
### 3.6 退出命令
|
||||
@ -191,7 +191,7 @@ ORDER BY sum(population) DESC;
|
||||
|
||||
如果是普通项目,则可以从 Phoenix 解压目录下找到对应的 JAR 包,然后手动引入:
|
||||
|
||||
<div align="center"> <img src="../pictures/phoenix-core-jar.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/phoenix-core-jar.png"/> </div>
|
||||
### 4.2 简单的Java API实例
|
||||
|
||||
```java
|
||||
@ -231,7 +231,7 @@ public class PhoenixJavaApi {
|
||||
|
||||
结果如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/Phoenix-java-api-result.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/Phoenix-java-api-result.png"/> </div>
|
||||
|
||||
|
||||
实际的开发中我们通常都是采用第三方框架来操作数据库,如 `mybatis`,`Hibernate`,`Spring Data` 等。关于 Phoenix 与这些框架的整合步骤参见下一篇文章:[Spring/Spring Boot + Mybatis + Phoenix](https://github.com/heibaiying/BigData-Notes/blob/master/notes/Spring+Mybtais+Phoenix整合.md)
|
||||
|
@ -11,7 +11,7 @@
|
||||
|
||||
HBase 是一个构建在 Hadoop 文件系统之上的面向列的数据库管理系统。
|
||||
|
||||
<div align="center"> <img src="../pictures/hbase.jpg"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hbase.jpg"/> </div>
|
||||
|
||||
要想明白为什么产生 HBase,就需要先了解一下 Hadoop 存在的限制?Hadoop 可以通过 HDFS 来存储结构化、半结构甚至非结构化的数据,它是传统数据库的补充,是海量数据存储的最佳方法,它针对大文件的存储,批量访问和流式访问都做了优化,同时也通过多副本解决了容灾问题。
|
||||
|
||||
@ -52,7 +52,7 @@ HBase 是一个面向 ` 列 ` 的数据库管理系统,这里更为确切的
|
||||
+ 该表具有两个列族,分别是 personal 和 office;
|
||||
+ 其中列族 personal 拥有 name、city、phone 三个列,列族 office 拥有 tel、addres 两个列。
|
||||
|
||||
<div align="center"> <img src="../pictures/HBase_table-iteblog.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/HBase_table-iteblog.png"/> </div>
|
||||
|
||||
> *图片引用自 : HBase 是列式存储数据库吗* *https://www.iteblog.com/archives/2498.html*
|
||||
|
||||
|
@ -23,7 +23,7 @@
|
||||
|
||||
一个典型的 Hbase Table 表如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/hbase-webtable.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hbase-webtable.png"/> </div>
|
||||
|
||||
### 1.1 Row Key (行键)
|
||||
|
||||
@ -79,15 +79,15 @@ HBase 中通过 `row key` 和 `column` 确定的为一个存储单元称为 `Cel
|
||||
|
||||
HBase Table 中的所有行按照 `Row Key` 的字典序排列。HBase Tables 通过行键的范围 (row key range) 被水平切分成多个 `Region`, 一个 `Region` 包含了在 start key 和 end key 之间的所有行。
|
||||
|
||||
<div align="center"> <img src="../pictures/HBaseArchitecture-Blog-Fig2.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/HBaseArchitecture-Blog-Fig2.png"/> </div>
|
||||
|
||||
每个表一开始只有一个 `Region`,随着数据不断增加,`Region` 会不断增大,当增大到一个阀值的时候,`Region` 就会等分为两个新的 `Region`。当 Table 中的行不断增多,就会有越来越多的 `Region`。
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/hbase-region-splite.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hbase-region-splite.png"/> </div>
|
||||
|
||||
`Region` 是 HBase 中**分布式存储和负载均衡的最小单元**。这意味着不同的 `Region` 可以分布在不同的 `Region Server` 上。但一个 `Region` 是不会拆分到多个 Server 上的。
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/hbase-region-dis.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hbase-region-dis.png"/> </div>
|
||||
|
||||
### 2.2 Region Server
|
||||
|
||||
@ -98,13 +98,13 @@ HBase Table 中的所有行按照 `Row Key` 的字典序排列。HBase Tables
|
||||
- **MemStore**:写缓存。它存储尚未写入磁盘的新数据,并会在数据写入磁盘之前对其进行排序。每个 Region 上的每个列族都有一个 MemStore。
|
||||
- **HFile** :将行数据按照 Key\Values 的形式存储在文件系统上。
|
||||
|
||||
<div align="center"> <img src="../pictures/hbase-Region-Server.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hbase-Region-Server.png"/> </div>
|
||||
|
||||
|
||||
|
||||
Region Server 存取一个子表时,会创建一个 Region 对象,然后对表的每个列族创建一个 `Store` 实例,每个 `Store` 会有 0 个或多个 `StoreFile` 与之对应,每个 `StoreFile` 则对应一个 `HFile`,HFile 就是实际存储在 HDFS 上的文件。
|
||||
|
||||
<div align="center"> <img src="../pictures/hbase-hadoop.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hbase-hadoop.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -142,7 +142,7 @@ HBase 系统遵循 Master/Salve 架构,由三种不同类型的组件组成:
|
||||
|
||||
2. Region Server 负责切分在运行过程中变得过大的 Region。
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/HBaseArchitecture-Blog-Fig1.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/HBaseArchitecture-Blog-Fig1.png"/> </div>
|
||||
|
||||
### 3.2 组件间的协作
|
||||
|
||||
@ -154,7 +154,7 @@ HBase 系统遵循 Master/Salve 架构,由三种不同类型的组件组成:
|
||||
|
||||
+ 如果主 Master 未能定时发送心跳,则其持有的 Zookeeper 会话会过期,相应的临时节点也会被删除,这会触发定义在该节点上的 Watcher 事件,使得备用的 Master Servers 得到通知。所有备用的 Master Servers 在接到通知后,会再次去竞争性地创建临时节点,完成主 Master 的选举。
|
||||
|
||||
<div align="center"> <img src="../pictures/HBaseArchitecture-Blog-Fig5.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/HBaseArchitecture-Blog-Fig5.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -194,7 +194,7 @@ HBase 系统遵循 Master/Salve 架构,由三种不同类型的组件组成:
|
||||
|
||||
注:`META` 表是 HBase 中一张特殊的表,它保存了所有 Region 的位置信息,META 表自己的位置信息则存储在 ZooKeeper 上。
|
||||
|
||||
<div align="center"> <img src="../pictures/HBaseArchitecture-Blog-Fig7.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/HBaseArchitecture-Blog-Fig7.png"/> </div>
|
||||
|
||||
> 更为详细读取数据流程参考:
|
||||
>
|
||||
|
@ -30,7 +30,7 @@
|
||||
|
||||
Hbase 提供了种类丰富的过滤器(filter)来提高数据处理的效率,用户可以通过内置或自定义的过滤器来对数据进行过滤,所有的过滤器都在服务端生效,即谓词下推(predicate push down)。这样可以保证过滤掉的数据不会被传送到客户端,从而减轻网络传输和客户端处理的压力。
|
||||
|
||||
<div align="center"> <img src="../pictures/hbase-fliter.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hbase-fliter.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -62,7 +62,7 @@ setFilter(Filter filter)
|
||||
}
|
||||
```
|
||||
|
||||
FilterBase 的所有子类过滤器如下:<div align="center"> <img src="../pictures/hbase-filterbase-subclass.png"/> </div>
|
||||
FilterBase 的所有子类过滤器如下:<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hbase-filterbase-subclass.png"/> </div>
|
||||
|
||||
> 说明:上图基于当前时间点(2019.4)最新的 Hbase-2.1.4 ,下文所有说明均基于此版本。
|
||||
|
||||
@ -117,7 +117,7 @@ public enum CompareOperator {
|
||||
|
||||
所有比较器均继承自 `ByteArrayComparable` 抽象类,常用的有以下几种:
|
||||
|
||||
<div align="center"> <img src="../pictures/hbase-bytearraycomparable.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hbase-bytearraycomparable.png"/> </div>
|
||||
|
||||
- **BinaryComparator** : 使用 `Bytes.compareTo(byte [],byte [])` 按字典序比较指定的字节数组。
|
||||
- **BinaryPrefixComparator** : 按字典序与指定的字节数组进行比较,但只比较到这个字节数组的长度。
|
||||
@ -137,7 +137,7 @@ public enum CompareOperator {
|
||||
|
||||
比较过滤器共有五个(Hbase 1.x 版本和 2.x 版本相同),见下图:
|
||||
|
||||
<div align="center"> <img src="../pictures/hbase-compareFilter.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hbase-compareFilter.png"/> </div>
|
||||
|
||||
+ **RowFilter** :基于行键来过滤数据;
|
||||
+ **FamilyFilterr** :基于列族来过滤数据;
|
||||
|
@ -55,7 +55,7 @@ usage: hive
|
||||
hive -e 'select * from emp';
|
||||
```
|
||||
|
||||
<div align="center"> <img width='700px' src="../pictures/hive-e.png"/> </div>
|
||||
<div align="center"> <img width='700px' src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hive-e.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -129,7 +129,7 @@ hive > select ${hivevar:j} from emp;
|
||||
|
||||
结果如下:
|
||||
|
||||
<div align="center"> <img width='700px' src="../pictures/hive-n-j.png"/> </div>
|
||||
<div align="center"> <img width='700px' src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hive-n-j.png"/> </div>
|
||||
|
||||
## 二、Beeline
|
||||
|
||||
|
@ -61,7 +61,7 @@ LOAD DATA LOCAL INPATH "/usr/file/emp30.txt" OVERWRITE INTO TABLE emp_partition
|
||||
|
||||
这时候当你的查询语句的 `where` 包含 `deptno=20`,则就去对应的分区目录下进行查找,而不用扫描全表。
|
||||
|
||||
<div align="center"> <img src="../pictures/hive-hadoop-partitation.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hive-hadoop-partitation.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -79,7 +79,7 @@ LOAD DATA LOCAL INPATH "/usr/file/emp30.txt" OVERWRITE INTO TABLE emp_partition
|
||||
|
||||
当调用 HashMap 的 put() 方法存储数据时,程序会先对 key 值调用 hashCode() 方法计算出 hashcode,然后对数组长度取模计算出 index,最后将数据存储在数组 index 位置的链表上,链表达到一定阈值后会转换为红黑树 (JDK1.8+)。下图为 HashMap 的数据结构图:
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/HashMap-HashTable.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/HashMap-HashTable.png"/> </div>
|
||||
|
||||
> 图片引用自:[HashMap vs. Hashtable](http://www.itcuties.com/java/hashmap-hashtable/)
|
||||
|
||||
@ -123,13 +123,13 @@ INSERT INTO TABLE emp_bucket SELECT * FROM emp; --这里的 emp 表就是一
|
||||
|
||||
可以从执行日志看到 CTAS 触发 MapReduce 操作,且 Reducer 数量和建表时候指定 bucket 数量一致:
|
||||
|
||||
<div align="center"> <img src="../pictures/hive-hadoop-mapreducer.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hive-hadoop-mapreducer.png"/> </div>
|
||||
|
||||
### 1.5 查看分桶文件
|
||||
|
||||
bucket(桶) 本质上就是表目录下的具体文件:
|
||||
|
||||
<div align="center"> <img src="../pictures/hive-hadoop-bucket.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hive-hadoop-bucket.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -38,7 +38,7 @@
|
||||
show databases;
|
||||
```
|
||||
|
||||
<div align="center"> <img width='700px' src="../pictures/hive-show-database.png"/> </div>
|
||||
<div align="center"> <img width='700px' src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hive-show-database.png"/> </div>
|
||||
|
||||
### 1.2 使用数据库
|
||||
|
||||
@ -161,7 +161,7 @@ CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name --
|
||||
|
||||
使用 `desc format emp_external` 命令可以查看表的详细信息如下:
|
||||
|
||||
<div align="center"> <img width='700px' src="../pictures/hive-external-table.png"/> </div>
|
||||
<div align="center"> <img width='700px' src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hive-external-table.png"/> </div>
|
||||
|
||||
### 2.4 分区表
|
||||
|
||||
@ -292,7 +292,7 @@ load data local inpath "/usr/file/emp.txt" into table emp;
|
||||
|
||||
加载后可查询表中数据:
|
||||
|
||||
<div align="center"> <img width='700px' src="../pictures/hive-select-emp.png"/> </div>
|
||||
<div align="center"> <img width='700px' src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hive-select-emp.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -65,7 +65,7 @@ LOAD DATA INPATH "hdfs://hadoop001:8020/mydir/emp.txt" OVERWRITE INTO TABLE emp
|
||||
|
||||
加载后表中数据如下,分区列 deptno 全部赋值成 20:
|
||||
|
||||
<div align="center"> <img src="../pictures/hive-emp-ptn.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hive-emp-ptn.png"/> </div>
|
||||
|
||||
## 二、查询结果插入到表
|
||||
|
||||
@ -140,7 +140,7 @@ CREATE TABLE emp(
|
||||
load data local inpath "/usr/file/emp.txt" into table emp;
|
||||
```
|
||||
完成后 `emp` 表中数据如下:
|
||||
<div align="center"> <img src="../pictures/hive-emp.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hive-emp.png"/> </div>
|
||||
|
||||
2. 为清晰演示,先清空 `emp_ptn` 表中加载的数据:
|
||||
|
||||
@ -157,7 +157,7 @@ SELECT empno,ename,job,mgr,hiredate,sal,comm FROM emp WHERE deptno=20;
|
||||
|
||||
完成后 `emp_ptn` 表中数据如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/hive-emp-deptno-20.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hive-emp-deptno-20.png"/> </div>
|
||||
|
||||
4. 接着演示动态分区:
|
||||
|
||||
@ -172,7 +172,7 @@ SELECT empno,ename,job,mgr,hiredate,sal,comm,deptno FROM emp WHERE deptno=30;
|
||||
|
||||
完成后 `emp_ptn` 表中数据如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/hive-emp-deptno-20-30.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hive-emp-deptno-20-30.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -261,7 +261,7 @@ INSERT INTO TABLE emp_ts VALUES (1,"ming"),(2,"hong");
|
||||
|
||||
插入数据依靠的是 MapReduce 作业,执行成功后数据如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/hive-emp-ts.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hive-emp-ts.png"/> </div>
|
||||
|
||||
**4. 测试更新和删除**
|
||||
|
||||
@ -275,7 +275,7 @@ DELETE FROM emp_ts WHERE empno=2;
|
||||
|
||||
更新和删除数据依靠的也是 MapReduce 作业,执行成功后数据如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/hive-emp-ts-2.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hive-emp-ts-2.png"/> </div>
|
||||
|
||||
|
||||
## 五、查询结果写出到文件系统
|
||||
@ -317,7 +317,7 @@ SELECT * FROM emp_ptn;
|
||||
|
||||
导出结果如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/hive-ouput.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hive-ouput.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -247,7 +247,7 @@ Hive 支持内连接,外连接,左外连接,右外连接,笛卡尔连接
|
||||
|
||||
需要特别强调:JOIN 语句的关联条件必须用 ON 指定,不能用 WHERE 指定,否则就会先做笛卡尔积,再过滤,这会导致你得不到预期的结果 (下面的演示会有说明)。
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/sql-join.jpg"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/sql-join.jpg"/> </div>
|
||||
|
||||
### 3.1 INNER JOIN
|
||||
|
||||
@ -284,7 +284,7 @@ ON e.deptno = d.deptno;
|
||||
|
||||
执行右连接后,由于 40 号部门下没有任何员工,所以此时员工信息为 NULL。这个查询可以很好的复述上面提到的——JOIN 语句的关联条件必须用 ON 指定,不能用 WHERE 指定。你可以把 ON 改成 WHERE,你会发现无论如何都查不出 40 号部门这条数据,因为笛卡尔运算不会有 (NULL, 40) 这种情况。
|
||||
|
||||
<div align="center"> <img width="700px" src="../pictures/hive-right-join.png"/> </div>
|
||||
<div align="center"> <img width="700px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hive-right-join.png"/> </div>
|
||||
### 3.4 FULL OUTER JOIN
|
||||
|
||||
```sql
|
||||
|
@ -29,7 +29,7 @@ Hive 是一个构建在 Hadoop 之上的数据仓库,它可以将结构化的
|
||||
|
||||
## 二、Hive的体系架构
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/hive体系架构.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hive体系架构.png"/> </div>
|
||||
|
||||
### 2.1 command-line shell & thrift/jdbc
|
||||
|
||||
@ -84,7 +84,7 @@ Hive 表中的列支持以下基本数据类型:
|
||||
|
||||
Hive 中基本数据类型遵循以下的层次结构,按照这个层次结构,子类型到祖先类型允许隐式转换。例如 INT 类型的数据允许隐式转换为 BIGINT 类型。额外注意的是:按照类型层次结构允许将 STRING 类型隐式转换为 DOUBLE 类型。
|
||||
|
||||
<div align="center"> <img src="../pictures/hive-data-type.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hive-data-type.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -41,7 +41,7 @@ CREATE VIEW [IF NOT EXISTS] [db_name.]view_name -- 视图名称
|
||||
CREATE VIEW IF NOT EXISTS custom_view AS SELECT empno, empno+deptno , 1+2 FROM emp;
|
||||
```
|
||||
|
||||
<div align="center"> <img src="../pictures/hive-1-2-view.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hive-1-2-view.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -95,7 +95,7 @@ table_properties:
|
||||
ALTER VIEW custom_view SET TBLPROPERTIES ('create'='heibaiying','date'='2019-05-05');
|
||||
```
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/hive-view-properties.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hive-view-properties.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -189,7 +189,7 @@ alter index emp_index on emp rebuild;
|
||||
|
||||
Hive 会启动 MapReduce 作业去建立索引,建立好后查看索引表数据如下。三个表字段分别代表:索引列的值、该值对应的 HDFS 文件路径、该值在文件中的偏移量。
|
||||
|
||||
<div align="center"> <img width="700px" src="../pictures/hive-index-table.png"/> </div>
|
||||
<div align="center"> <img width="700px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hive-index-table.png"/> </div>
|
||||
|
||||
### 3.3 自动使用索引
|
||||
|
||||
@ -207,7 +207,7 @@ SET hive.optimize.index.filter.compact.minsize=0;
|
||||
SHOW INDEX ON emp;
|
||||
```
|
||||
|
||||
<div align="center"> <img src="../pictures/hive-index-show.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hive-index-show.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -21,11 +21,11 @@
|
||||
|
||||
在 Kafka 中,消费者通常是消费者群组的一部分,多个消费者群组共同读取同一个主题时,彼此之间互不影响。Kafka 之所以要引入消费者群组这个概念是因为 Kafka 消费者经常会做一些高延迟的操作,比如把数据写到数据库或 HDFS ,或者进行耗时的计算,在这些情况下,单个消费者无法跟上数据生成的速度。此时可以增加更多的消费者,让它们分担负载,分别处理部分分区的消息,这就是 Kafka 实现横向伸缩的主要手段。
|
||||
|
||||
<div align="center"> <img src="../pictures/kafka-consumer01.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/kafka-consumer01.png"/> </div>
|
||||
|
||||
需要注意的是:同一个分区只能被同一个消费者群组里面的一个消费者读取,不可能存在同一个分区被同一个消费者群里多个消费者共同读取的情况,如图:
|
||||
|
||||
<div align="center"> <img src="../pictures/kafka-consumer02.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/kafka-consumer02.png"/> </div>
|
||||
|
||||
可以看到即便消费者 Consumer5 空闲了,但是也不会去读取任何一个分区的数据,这同时也提醒我们在使用时应该合理设置消费者的数量,以免造成闲置和额外开销。
|
||||
|
||||
|
@ -36,7 +36,7 @@ Kafka 使用 Zookeeper 来维护集群成员 (brokers) 的信息。每个 broker
|
||||
|
||||
Kafka 的主题被分为多个分区 ,分区是 Kafka 最基本的存储单位。每个分区可以有多个副本 (可以在创建主题时使用 ` replication-factor` 参数进行指定)。其中一个副本是首领副本 (Leader replica),所有的事件都直接发送给首领副本;其他副本是跟随者副本 (Follower replica),需要通过复制来保持与首领副本数据一致,当首领副本不可用时,其中一个跟随者副本将成为新首领。
|
||||
|
||||
<div align="center"> <img src="../pictures/kafka-cluster.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/kafka-cluster.png"/> </div>
|
||||
|
||||
### 2.2 ISR机制
|
||||
|
||||
@ -49,7 +49,7 @@ Kafka 的主题被分为多个分区 ,分区是 Kafka 最基本的存储单位
|
||||
|
||||
这里给出一个主题创建的示例:使用 `--replication-factor` 指定副本系数为 3,创建成功后使用 `--describe ` 命令可以看到分区 0 的有 0,1,2 三个副本,且三个副本都在 ISR 列表中,其中 1 为首领副本。
|
||||
|
||||
<div align="center"> <img src="../pictures/kafka-分区副本.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/kafka-分区副本.png"/> </div>
|
||||
|
||||
### 2.3 不完全的首领选举
|
||||
|
||||
@ -77,13 +77,13 @@ Kafka 在生产者上有一个可选的参数 ack,该参数指定了必须要
|
||||
|
||||
如果在定时请求的时间间隔内发生的分区副本的选举,则意味着原来缓存的信息可能已经过时了,此时还有可能会收到 `Not a Leader for Partition` 的错误响应,这种情况下客户端会再次求发出元数据请求,然后刷新本地缓存,之后再去正确的 broker 上执行对应的操作,过程如下图:
|
||||
|
||||
<div align="center"> <img src="../pictures/kafka-元数据请求.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/kafka-元数据请求.png"/> </div>
|
||||
|
||||
### 3.2 数据可见性
|
||||
|
||||
需要注意的是,并不是所有保存在分区首领上的数据都可以被客户端读取到,为了保证数据一致性,只有被所有同步副本 (ISR 中所有副本) 都保存了的数据才能被客户端读取到。
|
||||
|
||||
<div align="center"> <img src="../pictures/kafka-数据可见性.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/kafka-数据可见性.png"/> </div>
|
||||
|
||||
### 3.3 零拷贝
|
||||
|
||||
@ -100,13 +100,13 @@ Socket.send(buffer)
|
||||
|
||||
这一过程实际上发生了四次数据拷贝。首先通过系统调用将文件数据读入到内核态 Buffer(DMA 拷贝),然后应用程序将内存态 Buffer 数据读入到用户态 Buffer(CPU 拷贝),接着用户程序通过 Socket 发送数据时将用户态 Buffer 数据拷贝到内核态 Buffer(CPU 拷贝),最后通过 DMA 拷贝将数据拷贝到 NIC Buffer。同时,还伴随着四次上下文切换,如下图所示:
|
||||
|
||||
<div align="center"> <img src="../pictures/kafka-BIO.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/kafka-BIO.png"/> </div>
|
||||
|
||||
#### sendfile和transferTo实现零拷贝
|
||||
|
||||
Linux 2.4+ 内核通过 `sendfile` 系统调用,提供了零拷贝。数据通过 DMA 拷贝到内核态 Buffer 后,直接通过 DMA 拷贝到 NIC Buffer,无需 CPU 拷贝。这也是零拷贝这一说法的来源。除了减少数据拷贝外,因为整个读文件到网络发送由一个 `sendfile` 调用完成,整个过程只有两次上下文切换,因此大大提高了性能。零拷贝过程如下图所示:
|
||||
|
||||
<div align="center"> <img src="../pictures/kafka-零拷贝.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/kafka-零拷贝.png"/> </div>
|
||||
|
||||
从具体实现来看,Kafka 的数据传输通过 TransportLayer 来完成,其子类 `PlaintextTransportLayer` 的 `transferFrom` 方法通过调用 Java NIO 中 FileChannel 的 `transferTo` 方法实现零拷贝,如下所示:
|
||||
|
||||
@ -151,7 +151,7 @@ Exception: Replication factor: 3 larger than available brokers: 1.
|
||||
|
||||
通常保存在磁盘上的数据格式与生产者发送过来消息格式是一样的。 如果生产者发送的是压缩过的消息,那么同一个批次的消息会被压缩在一起,被当作“包装消息”进行发送 (格式如下所示) ,然后保存到磁盘上。之后消费者读取后再自己解压这个包装消息,获取每条消息的具体信息。
|
||||
|
||||
<div align="center"> <img src="../pictures/kafka-compress-message.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/kafka-compress-message.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -19,7 +19,7 @@
|
||||
+ 接下来,数据被传给分区器。如果之前已经在 ProducerRecord 对象里指定了分区,那么分区器就不会再做任何事情。如果没有指定分区 ,那么分区器会根据 ProducerRecord 对象的键来选择一个分区,紧接着,这条记录被添加到一个记录批次里,这个批次里的所有消息会被发送到相同的主题和分区上。有一个独立的线程负责把这些记录批次发送到相应的 broker 上。
|
||||
+ 服务器在收到这些消息时会返回一个响应。如果消息成功写入 Kafka,就返回一个 RecordMetaData 对象,它包含了主题和分区信息,以及记录在分区里的偏移量。如果写入失败,则会返回一个错误。生产者在收到错误之后会尝试重新发送消息,如果达到指定的重试次数后还没有成功,则直接抛出异常,不再重试。
|
||||
|
||||
<div align="center"> <img src="../pictures/kafka-send-messgaes.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/kafka-send-messgaes.png"/> </div>
|
||||
|
||||
## 二、创建生产者
|
||||
|
||||
@ -118,7 +118,7 @@ bin/kafka-topics.sh --create \
|
||||
|
||||
此时可以看到消费者控制台,输出如下,这里 `kafka-console-consumer` 只会打印出值信息,不会打印出键信息。
|
||||
|
||||
<div align="center"> <img src="../pictures/kafka-simple-producer.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/kafka-simple-producer.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -32,7 +32,7 @@ Kafka 的消息通过 Topics(主题) 进行分类,一个主题可以被分为
|
||||
|
||||
由于一个 Topic 包含多个分区,因此无法在整个 Topic 范围内保证消息的顺序性,但可以保证消息在单个分区内的顺序性。
|
||||
|
||||
<div align="center"> <img src="../pictures/kafka-topic.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/kafka-topic.png"/> </div>
|
||||
|
||||
### 2.3 Producers And Consumers
|
||||
|
||||
@ -44,11 +44,11 @@ Kafka 的消息通过 Topics(主题) 进行分类,一个主题可以被分为
|
||||
|
||||
消费者是消费者群组的一部分,消费者负责消费消息。消费者可以订阅一个或者多个主题,并按照消息生成的顺序来读取它们。消费者通过检查消息的偏移量 (offset) 来区分读取过的消息。偏移量是一个不断递增的数值,在创建消息时,Kafka 会把它添加到其中,在给定的分区里,每个消息的偏移量都是唯一的。消费者把每个分区最后读取的偏移量保存在 Zookeeper 或 Kafka 上,如果消费者关闭或者重启,它还可以重新获取该偏移量,以保证读取状态不会丢失。
|
||||
|
||||
<div align="center"> <img src="../pictures/kafka-producer-consumer.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/kafka-producer-consumer.png"/> </div>
|
||||
|
||||
一个分区只能被同一个消费者群组里面的一个消费者读取,但可以被不同消费者群组中所组成的多个消费者共同读取。多个消费者群组中消费者共同读取同一个主题时,彼此之间互不影响。
|
||||
|
||||
<div align="center"> <img src="../pictures/kafka消费者.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/kafka消费者.png"/> </div>
|
||||
|
||||
### 2.4 Brokers And Clusters
|
||||
|
||||
@ -58,7 +58,7 @@ Broker 是集群 (Cluster) 的组成部分。每一个集群都会选举出一
|
||||
|
||||
在集群中,一个分区 (Partition) 从属一个 Broker,该 Broker 被称为分区的首领 (Leader)。一个分区可以分配给多个 Brokers,这个时候会发生分区复制。这种复制机制为分区提供了消息冗余,如果有一个 Broker 失效,其他 Broker 可以接管领导权。
|
||||
|
||||
<div align="center"> <img src="../pictures/kafka-cluster.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/kafka-cluster.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -205,7 +205,7 @@ res15: Int = 3
|
||||
|
||||
Int 类中包含了多个重载的 `+` 方法,用于分别接收不同类型的参数。
|
||||
|
||||
<div align="center"> <img src="../pictures/scala-int+.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/scala-int+.png"/> </div>
|
||||
|
||||
### 3.2 逻辑运算符
|
||||
|
||||
@ -234,7 +234,7 @@ res10: Int = 1
|
||||
|
||||
操作符的优先级如下:优先级由上至下,逐级递减。
|
||||
|
||||
<div align="center"> <img src="../pictures/scala-操作符优先级.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/scala-操作符优先级.png"/> </div>
|
||||
|
||||
在表格中某个字符的优先级越高,那么以这个字符打头的方法就拥有更高的优先级。如 `+` 的优先级大于 `<`,也就意味则 `+` 的优先级大于以 `<` 开头的 `<<`,所以 `2<<2+2` , 实际上等价于 `2<<(2+2)` :
|
||||
|
||||
|
@ -61,7 +61,7 @@ Scala 的运行依赖于 JDK,Scala 2.12.x 需要 JDK 1.8+。
|
||||
|
||||
IDEA 默认不支持 Scala 语言的开发,需要通过插件进行扩展。打开 IDEA,依次点击 **File** => **settings**=> **plugins** 选项卡,搜索 Scala 插件 (如下图)。找到插件后进行安装,并重启 IDEA 使得安装生效。
|
||||
|
||||
<div align="center"> <img width="700px" src="../pictures/idea-scala-plugin.png"/> </div>
|
||||
<div align="center"> <img width="700px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/idea-scala-plugin.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -69,7 +69,7 @@ IDEA 默认不支持 Scala 语言的开发,需要通过插件进行扩展。
|
||||
|
||||
在 IDEA 中依次点击 **File** => **New** => **Project** 选项卡,然后选择创建 `Scala—IDEA` 工程:
|
||||
|
||||
<div align="center"> <img width="700px" src="../pictures/idea-newproject-scala.png"/> </div>
|
||||
<div align="center"> <img width="700px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/idea-newproject-scala.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -79,7 +79,7 @@ IDEA 默认不支持 Scala 语言的开发,需要通过插件进行扩展。
|
||||
|
||||
此时看到 `Scala SDK` 为空,依次点击 `Create` => `Download` ,选择所需的版本后,点击 `OK` 按钮进行下载,下载完成点击 `Finish` 进入工程。
|
||||
|
||||
<div align="center"> <img width="700px" src="../pictures/idea-scala-select.png"/> </div>
|
||||
<div align="center"> <img width="700px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/idea-scala-select.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -89,13 +89,13 @@ IDEA 默认不支持 Scala 语言的开发,需要通过插件进行扩展。
|
||||
|
||||
这里我的系统是 Windows,下载 msi 版本的安装包后,一直点击下一步进行安装,安装完成后会自动配置好环境变量。
|
||||
|
||||
<div align="center"> <img width="700px" src="../pictures/scala-other-resources.png"/> </div>
|
||||
<div align="center"> <img width="700px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/scala-other-resources.png"/> </div>
|
||||
|
||||
|
||||
|
||||
由于安装时已经自动配置好环境变量,所以 IDEA 会自动选择对应版本的 SDK。
|
||||
|
||||
<div align="center"> <img width="700px" src="../pictures/idea-scala-2.1.8.png"/> </div>
|
||||
<div align="center"> <img width="700px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/idea-scala-2.1.8.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -103,7 +103,7 @@ IDEA 默认不支持 Scala 语言的开发,需要通过插件进行扩展。
|
||||
|
||||
在工程 `src` 目录上右击 **New** => **Scala class** 创建 `Hello.scala`。输入代码如下,完成后点击运行按钮,成功运行则代表搭建成功。
|
||||
|
||||
<div align="center"> <img width="700px" src="../pictures/scala-hello-world.png"/> </div>
|
||||
<div align="center"> <img width="700px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/scala-hello-world.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -113,7 +113,7 @@ IDEA 默认不支持 Scala 语言的开发,需要通过插件进行扩展。
|
||||
|
||||
在日常的开发中,由于对应软件(如 Spark)的版本切换,可能导致需要切换 Scala 的版本,则可以在 `Project Structures` 中的 `Global Libraries` 选项卡中进行切换。
|
||||
|
||||
<div align="center"> <img width="700px" src="../pictures/idea-scala-change.png"/> </div>
|
||||
<div align="center"> <img width="700px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/idea-scala-change.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -123,7 +123,7 @@ IDEA 默认不支持 Scala 语言的开发,需要通过插件进行扩展。
|
||||
|
||||
采用 `msi` 方式安装,程序会自动配置好环境变量。此时可以直接使用命令行工具:
|
||||
|
||||
<div align="center"> <img width="700px" src="../pictures/scala-shell.png"/> </div>
|
||||
<div align="center"> <img width="700px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/scala-shell.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -122,7 +122,7 @@ trait Ordered[A] extends Any with java.lang.Comparable[A] {
|
||||
@inline implicit def intWrapper(x: Int) = new runtime.RichInt(x)
|
||||
```
|
||||
|
||||
<div align="center"> <img src="../pictures/scala-richInt.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/scala-richInt.png"/> </div>
|
||||
|
||||
要想解决传入数值无法进行比较的问题,可以使用视图界定。语法为 `T <% U`,代表 T 能够通过隐式转换转为 U,即允许 Int 型参数在无法进行比较的时候转换为 RichInt 类型。示例如下:
|
||||
|
||||
@ -299,7 +299,7 @@ object ScalaApp extends App {
|
||||
|
||||
为什么 Java 中要同时给出这两个比较接口,这是因为你要比较的对象不一定实现了 Comparable 接口,而你又想对其进行比较,这时候当然你可以修改代码实现 Comparable,但是如果这个类你无法修改 (如源码中的类),这时候就可以使用外置的比较器。同样的问题在 Scala 中当然也会出现,所以 Scala 分别使用了 Ordering 和 Ordered 来继承它们。
|
||||
|
||||
<div align="center"> <img src="../pictures/scala-ordered-ordering.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/scala-ordered-ordering.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -28,7 +28,7 @@ Scala 中继承关系如下图:
|
||||
+ Null 是所有引用类型的子类型,唯一实例是 null,可以将 null 赋值给除了值类型外的所有类型的变量;
|
||||
+ Nothing 是所有类型的子类型。
|
||||
|
||||
<div align="center"> <img src="../pictures/scala继承层次.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/scala继承层次.png"/> </div>
|
||||
|
||||
### 1.2 extends & override
|
||||
|
||||
@ -312,7 +312,7 @@ class InfoLogger extends Logger {
|
||||
|
||||
Scala 支持在类定义的时混入 ` 父类 trait`,而在类实例化为具体对象的时候指明其实际使用的 ` 子类 trait`。示例如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/scala带有特质的对象.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/scala带有特质的对象.png"/> </div>
|
||||
|
||||
trait Logger:
|
||||
|
||||
|
@ -327,7 +327,7 @@ object Pair extends App {
|
||||
|
||||
为什么要这么麻烦执行隐式转换,原因是 Scala 中的 Int 类型并不能直接进行比较,因为其没有实现 `Ordered` 特质,真正实现 `Ordered` 特质的是 `RichInt`。
|
||||
|
||||
<div align="center"> <img src="../pictures/scala-richInt.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/scala-richInt.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -44,19 +44,19 @@ res0: scala.collection.immutable.Set[Int] = Set(5, 1, 2, 3, 4)
|
||||
|
||||
scala.collection 包中所有集合如下图:
|
||||
|
||||
<div align="center"> <img src="../pictures/scala-collection.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/scala-collection.png"/> </div>
|
||||
|
||||
### 3.2 scala.collection.mutable
|
||||
|
||||
scala.collection.mutable 包中所有集合如下图:
|
||||
|
||||
<div align="center"> <img src="../pictures/scala-collection-m.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/scala-collection-m.png"/> </div>
|
||||
|
||||
### 3.2 scala.collection.immutable
|
||||
|
||||
scala.collection.immutable 包中所有集合如下图:
|
||||
|
||||
<div align="center"> <img src="../pictures/scala-collection-imm.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/scala-collection-imm.png"/> </div>
|
||||
|
||||
## 三、Trait Traversable
|
||||
|
||||
|
@ -27,7 +27,7 @@ Spark SQL 是 Spark 中的一个子模块,主要用于操作结构化数据。
|
||||
+ 支持优化器,列式存储和代码生成等特性;
|
||||
+ 支持扩展并能保证容错。
|
||||
|
||||
<div align="center"> <img src="../pictures/sql-hive-arch.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/sql-hive-arch.png"/> </div>
|
||||
|
||||
## 二、DataFrame & DataSet
|
||||
|
||||
@ -46,7 +46,7 @@ Spark SQL 是 Spark 中的一个子模块,主要用于操作结构化数据。
|
||||
|
||||
DataFrame 和 RDDs 最主要的区别在于一个面向的是结构化数据,一个面向的是非结构化数据,它们内部的数据结构如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/spark-dataFrame+RDDs.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-dataFrame+RDDs.png"/> </div>
|
||||
|
||||
DataFrame 内部的有明确 Scheme 结构,即列名、列字段类型都是已知的,这带来的好处是可以减少数据读取以及更好地优化执行计划,从而保证查询效率。
|
||||
|
||||
@ -64,7 +64,7 @@ Dataset 也是分布式的数据集合,在 Spark 1.6 版本被引入,它集
|
||||
|
||||
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/spark-unifed.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-unifed.png"/> </div>
|
||||
|
||||
### 2.4 静态类型与运行时类型安全
|
||||
|
||||
@ -76,11 +76,11 @@ Dataset 也是分布式的数据集合,在 Spark 1.6 版本被引入,它集
|
||||
|
||||
以上这些最终都被解释成关于类型安全图谱,对应开发中的语法和分析错误。在图谱中,Dataset 最严格,但对于开发者来说效率最高。
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/spark-运行安全.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-运行安全.png"/> </div>
|
||||
|
||||
上面的描述可能并没有那么直观,下面的给出一个 IDEA 中代码编译的示例:
|
||||
|
||||
<div align="center"> <img src="../pictures/spark-运行时类型安全.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-运行时类型安全.png"/> </div>
|
||||
|
||||
这里一个可能的疑惑是 DataFrame 明明是有确定的 Scheme 结构 (即列名、列字段类型都是已知的),但是为什么还是无法对列名进行推断和错误判断,这是因为 DataFrame 是 Untyped 的。
|
||||
|
||||
@ -106,7 +106,7 @@ val dataSet: Dataset[Person] = spark.read.json("people.json").as[Person]
|
||||
+ 相比于 DataFrame 而言,DataSet 是强类型的 (Typed),有着更为严格的静态类型检查;
|
||||
+ DataSets、DataFrames、SQL 的底层都依赖了 RDDs API,并对外提供结构化的访问接口。
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/spark-structure-api.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-structure-api.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -123,7 +123,7 @@ DataFrame、DataSet 和 Spark SQL 的实际执行流程都是相同的:
|
||||
|
||||
执行的第一个阶段是将用户代码转换成一个逻辑计划。它首先将用户代码转换成 `unresolved logical plan`(未解决的逻辑计划),之所以这个计划是未解决的,是因为尽管您的代码在语法上是正确的,但是它引用的表或列可能不存在。 Spark 使用 `analyzer`(分析器) 基于 `catalog`(存储的所有表和 `DataFrames` 的信息) 进行解析。解析失败则拒绝执行,解析成功则将结果传给 `Catalyst` 优化器 (`Catalyst Optimizer`),优化器是一组规则的集合,用于优化逻辑计划,通过谓词下推等方式进行优化,最终输出优化后的逻辑执行计划。
|
||||
|
||||
<div align="center"> <img src="../pictures/spark-Logical-Planning.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-Logical-Planning.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -131,7 +131,7 @@ DataFrame、DataSet 和 Spark SQL 的实际执行流程都是相同的:
|
||||
|
||||
得到优化后的逻辑计划后,Spark 就开始了物理计划过程。 它通过生成不同的物理执行策略,并通过成本模型来比较它们,从而选择一个最优的物理计划在集群上面执行的。物理规划的输出结果是一系列的 RDDs 和转换关系 (transformations)。
|
||||
|
||||
<div align="center"> <img src="../pictures/spark-Physical-Planning.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-Physical-Planning.png"/> </div>
|
||||
|
||||
### 4.3 执行
|
||||
|
||||
|
@ -350,7 +350,7 @@ jdbcDf.rdd.mapPartitionsWithIndex((index, iterator) => {
|
||||
|
||||
执行结果如下:`help_keyword` 这张表只有 600 条左右的数据,本来数据应该均匀分布在 10 个分区,但是 0 分区里面却有 319 条数据,这是因为设置了下限,所有小于 300 的数据都会被限制在第一个分区,即 0 分区。同理所有大于 500 的数据被分配在 9 分区,即最后一个分区。
|
||||
|
||||
<div align="center"> <img src="../pictures/spark-mysql-分区上下限.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-mysql-分区上下限.png"/> </div>
|
||||
|
||||
### 6.2 写入数据
|
||||
|
||||
@ -405,7 +405,7 @@ df.write.mode("overwrite").partitionBy("deptno").save("/tmp/spark/partitions")
|
||||
|
||||
输出结果如下:可以看到输出被按照部门编号分为三个子目录,子目录中才是对应的输出文件。
|
||||
|
||||
<div align="center"> <img src="../pictures/spark-分区.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-分区.png"/> </div>
|
||||
|
||||
### 8.3 分桶写入
|
||||
|
||||
|
@ -246,7 +246,7 @@ object SparkSqlApp {
|
||||
|
||||
自定义聚合函数需要实现的方法比较多,这里以绘图的方式来演示其执行流程,以及每个方法的作用:
|
||||
|
||||
<div align="center"> <img src="../pictures/spark-sql-自定义函数.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-sql-自定义函数.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -68,7 +68,7 @@ Spark 中支持多种连接类型:
|
||||
|
||||
其中内,外连接,笛卡尔积均与普通关系型数据库中的相同,如下图所示:
|
||||
|
||||
<div align="center"> <img src="../pictures/sql-join.jpg"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/sql-join.jpg"/> </div>
|
||||
|
||||
这里解释一下左半连接和左反连接,这两个连接等价于关系型数据库中的 `IN` 和 `NOT IN` 字句:
|
||||
|
||||
@ -154,7 +154,7 @@ spark.sql("SELECT * FROM emp NATURAL JOIN dept").show()
|
||||
spark.sql("SELECT * FROM emp JOIN dept ON emp.deptno = dept.deptno").show()
|
||||
```
|
||||
|
||||
<div align="center"> <img src="../pictures/spark-sql-NATURAL-JOIN.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-sql-NATURAL-JOIN.png"/> </div>
|
||||
|
||||
由于自然连接常常会产生不可预期的结果,所以并不推荐使用。
|
||||
|
||||
@ -164,13 +164,13 @@ spark.sql("SELECT * FROM emp JOIN dept ON emp.deptno = dept.deptno").show()
|
||||
|
||||
在对大表与大表之间进行连接操作时,通常都会触发 `Shuffle Join`,两表的所有分区节点会进行 `All-to-All` 的通讯,这种查询通常比较昂贵,会对网络 IO 会造成比较大的负担。
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/spark-Big-table–to–big-table.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-Big-table–to–big-table.png"/> </div>
|
||||
|
||||
|
||||
|
||||
而对于大表和小表的连接操作,Spark 会在一定程度上进行优化,如果小表的数据量小于 Worker Node 的内存空间,Spark 会考虑将小表的数据广播到每一个 Worker Node,在每个工作节点内部执行连接计算,这可以降低网络的 IO,但会加大每个 Worker Node 的 CPU 负担。
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/spark-Big-table–to–small-table.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-Big-table–to–small-table.png"/> </div>
|
||||
|
||||
是否采用广播方式进行 `Join` 取决于程序内部对小表的判断,如果想明确使用广播方式进行 `Join`,则可以在 DataFrame API 中使用 `broadcast` 方法指定需要广播的小表:
|
||||
|
||||
|
@ -85,7 +85,7 @@ val dataRDD = sc.parallelize(data,2)
|
||||
|
||||
执行结果如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/scala-分区数.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/scala-分区数.png"/> </div>
|
||||
|
||||
### 2.2 引用外部存储系统中的数据集
|
||||
|
||||
@ -176,7 +176,7 @@ Spark 会自动监视每个节点上的缓存使用情况,并按照最近最
|
||||
|
||||
在 Spark 中,一个任务对应一个分区,通常不会跨分区操作数据。但如果遇到 `reduceByKey` 等操作,Spark 必须从所有分区读取数据,并查找所有键的所有值,然后汇总在一起以计算每个键的最终结果 ,这称为 `Shuffle`。
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/spark-reducebykey.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-reducebykey.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -203,7 +203,7 @@ RDD 和它的父 RDD(s) 之间的依赖关系分为两种不同的类型:
|
||||
|
||||
如下图,每一个方框表示一个 RDD,带有颜色的矩形表示分区:
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/spark-窄依赖和宽依赖.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-窄依赖和宽依赖.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -221,7 +221,7 @@ RDD(s) 及其之间的依赖关系组成了 DAG(有向无环图),DAG 定义了
|
||||
+ 对于窄依赖,由于分区的依赖关系是确定的,其转换操作可以在同一个线程执行,所以可以划分到同一个执行阶段;
|
||||
+ 对于宽依赖,由于 Shuffle 的存在,只能在父 RDD(s) 被 Shuffle 处理完成后,才能开始接下来的计算,因此遇到宽依赖就需要重新划分阶段。
|
||||
|
||||
<div align="center"> <img width="600px" height="600px" src="../pictures/spark-DAG.png"/> </div>
|
||||
<div align="center"> <img width="600px" height="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-DAG.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -16,7 +16,7 @@
|
||||
|
||||
在流处理之前,数据通常存储在数据库,文件系统或其他形式的存储系统中。应用程序根据需要查询数据或计算数据。这就是传统的静态数据处理架构。Hadoop 采用 HDFS 进行数据存储,采用 MapReduce 进行数据查询或分析,这就是典型的静态数据处理架构。
|
||||
|
||||
<div align="center"> <img src="../pictures/01_data_at_rest_infrastructure.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/01_data_at_rest_infrastructure.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -28,7 +28,7 @@
|
||||
|
||||
接收和发送数据流并执行应用程序或分析逻辑的系统称为**流处理器**。流处理器的基本职责是确保数据有效流动,同时具备可扩展性和容错能力,Storm 和 Flink 就是其代表性的实现。
|
||||
|
||||
<div align="center"> <img src="../pictures/02_stream_processing_infrastructure.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/02_stream_processing_infrastructure.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -55,13 +55,13 @@ Spark Streaming 是 Spark 的一个子模块,用于快速构建可扩展,高
|
||||
+ 能够和 Spark 其他模块无缝集成,将流处理与批处理完美结合;
|
||||
+ Spark Streaming 可以从 HDFS,Flume,Kafka,Twitter 和 ZeroMQ 读取数据,也支持自定义数据源。
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/spark-streaming-arch.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-streaming-arch.png"/> </div>
|
||||
|
||||
### 2.2 DStream
|
||||
|
||||
Spark Streaming 提供称为离散流 (DStream) 的高级抽象,用于表示连续的数据流。 DStream 可以从来自 Kafka,Flume 和 Kinesis 等数据源的输入数据流创建,也可以由其他 DStream 转化而来。**在内部,DStream 表示为一系列 RDD**。
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/spark-streaming-flow.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-streaming-flow.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -62,7 +62,7 @@ storm storm flink azkaban
|
||||
|
||||
此时控制台输出如下,可以看到已经接收到数据并按行进行了词频统计。
|
||||
|
||||
<div align="center"> <img src="../pictures/spark-streaming-word-count-v1.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-streaming-word-count-v1.png"/> </div>
|
||||
<br/>
|
||||
|
||||
下面针对示例代码进行讲解:
|
||||
@ -105,7 +105,7 @@ streamingContext.fileStream[KeyClass, ValueClass, InputFormatClass](dataDirector
|
||||
|
||||
DStream 是 Spark Streaming 提供的基本抽象。它表示连续的数据流。在内部,DStream 由一系列连续的 RDD 表示。所以从本质上而言,应用于 DStream 的任何操作都会转换为底层 RDD 上的操作。例如,在示例代码中 flatMap 算子的操作实际上是作用在每个 RDDs 上 (如下图)。因为这个原因,所以 DStream 能够支持 RDD 大部分的*transformation*算子。
|
||||
|
||||
<div align="center"> <img src="../pictures/spark-streaming-dstream-ops.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-streaming-dstream-ops.png"/> </div>
|
||||
|
||||
### 2.2 updateStateByKey
|
||||
|
||||
@ -167,7 +167,7 @@ storm storm flink azkaban
|
||||
|
||||
此时控制台输出如下,所有输入都被进行了词频累计:
|
||||
|
||||
<div align="center"> <img src="../pictures/spark-streaming-word-count-v2.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-streaming-word-count-v2.png"/> </div>
|
||||
同时在输出日志中还可以看到检查点操作的相关信息:
|
||||
|
||||
```shell
|
||||
@ -323,7 +323,7 @@ storm storm flink azkaban
|
||||
|
||||
使用 Redis Manager 查看写入结果 (如下图),可以看到与使用 `updateStateByKey` 算子得到的计算结果相同。
|
||||
|
||||
<div align="center"> <img src="../pictures/spark-streaming-word-count-v3.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-streaming-word-count-v3.png"/> </div>
|
||||
<br/>
|
||||
|
||||
> 本片文章所有源码见本仓库:[spark-streaming-basis](https://github.com/heibaiying/BigData-Notes/tree/master/code/spark/spark-streaming-basis)
|
||||
|
@ -206,7 +206,7 @@ object PushBasedWordCount {
|
||||
|
||||
使用 `mvn clean package` 命令打包后会生产以下两个 Jar 包,提交 ` 非 original` 开头的 Jar 即可。
|
||||
|
||||
<div align="center"> <img src="../pictures/spark-streaming-flume-jar.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-streaming-flume-jar.png"/> </div>
|
||||
|
||||
### 2.5 启动服务和提交作业
|
||||
|
||||
@ -232,11 +232,11 @@ spark-submit \
|
||||
|
||||
这里使用 `echo` 命令模拟日志产生的场景,往日志文件中追加数据,然后查看程序的输出:
|
||||
|
||||
<div align="center"> <img src="../pictures/spark-flume-input.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-flume-input.png"/> </div>
|
||||
|
||||
Spark Streaming 程序成功接收到数据并打印输出:
|
||||
|
||||
<div align="center"> <img src="../pictures/spark-flume-console.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-flume-console.png"/> </div>
|
||||
|
||||
### 2.7 注意事项
|
||||
|
||||
@ -244,7 +244,7 @@ Spark Streaming 程序成功接收到数据并打印输出:
|
||||
|
||||
这里需要注意的,不论你先启动 Spark 程序还是 Flume 程序,由于两者的启动都需要一定的时间,此时先启动的程序会短暂地抛出端口拒绝连接的异常,此时不需要进行任何操作,等待两个程序都启动完成即可。
|
||||
|
||||
<div align="center"> <img src="../pictures/flume-retry.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flume-retry.png"/> </div>
|
||||
|
||||
#### 2. 版本一致
|
||||
|
||||
|
@ -310,7 +310,7 @@ bin/kafka-console-producer.sh --broker-list hadoop001:9092 --topic spark-streami
|
||||
|
||||
从控制台输出中可以看到数据流已经被成功接收,由于采用 `kafka-console-producer.sh` 发送的数据默认是没有 key 的,所以 key 值为 null。同时从输出中也可以看到在程序中指定的 `groupId` 和程序自动分配的 `clientId`。
|
||||
|
||||
<div align="center"> <img src="../pictures/spark-straming-kafka-console.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-straming-kafka-console.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -25,7 +25,7 @@ import spark.implicits._
|
||||
|
||||
可以使用 `spark-shell` 进行测试,需要注意的是 `spark-shell` 启动后会自动创建一个名为 `spark` 的 `SparkSession`,在命令行中可以直接引用即可:
|
||||
|
||||
<div align="center"> <img src="../pictures/spark-sql-shell.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-sql-shell.png"/> </div>
|
||||
|
||||
<br/>
|
||||
|
||||
|
@ -301,7 +301,7 @@ sc.parallelize(list,numSlices = 2).aggregateByKey(zeroValue = 0,numPartitions =
|
||||
|
||||
这里使用了 `numSlices = 2` 指定 aggregateByKey 父操作 parallelize 的分区数量为 2,其执行流程如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/spark-aggregateByKey.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-aggregateByKey.png"/> </div>
|
||||
|
||||
基于同样的执行流程,如果 `numSlices = 1`,则意味着只有输入一个分区,则其最后一步 combOp 相当于是无效的,执行结果为:
|
||||
|
||||
@ -328,7 +328,7 @@ sc.parallelize(list,numSlices = 6).aggregateByKey(zeroValue = 0,numPartitions =
|
||||
).getNumPartitions
|
||||
```
|
||||
|
||||
<div align="center"> <img src="../pictures/spark-getpartnum.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-getpartnum.png"/> </div>
|
||||
|
||||
## 二、Action
|
||||
|
||||
|
@ -28,7 +28,7 @@ Apache Spark 具有以下特点:
|
||||
+ 丰富的部署模式:支持本地模式和自带的集群模式,也支持在 Hadoop,Mesos,Kubernetes 上运行;
|
||||
+ 多数据源支持:支持访问 HDFS,Alluxio,Cassandra,HBase,Hive 以及数百个其他数据源中的数据。
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/future-of-spark.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/future-of-spark.png"/> </div>
|
||||
|
||||
## 三、集群架构
|
||||
|
||||
@ -41,7 +41,7 @@ Apache Spark 具有以下特点:
|
||||
| Executor | 位于工作节点上的应用进程,负责执行计算任务并且将输出数据保存到内存或者磁盘中 |
|
||||
| Task | 被发送到 Executor 中的工作单元 |
|
||||
|
||||
<div align="center"> <img src="../pictures/spark-集群模式.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-集群模式.png"/> </div>
|
||||
|
||||
**执行过程**:
|
||||
|
||||
@ -53,7 +53,7 @@ Apache Spark 具有以下特点:
|
||||
|
||||
Spark 基于 Spark Core 扩展了四个核心组件,分别用于满足不同领域的计算需求。
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/spark-stack.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-stack.png"/> </div>
|
||||
|
||||
### 3.1 Spark SQL
|
||||
|
||||
@ -69,11 +69,11 @@ Spark SQL 主要用于结构化数据的处理。其具有以下特点:
|
||||
|
||||
Spark Streaming 主要用于快速构建可扩展,高吞吐量,高容错的流处理程序。支持从 HDFS,Flume,Kafka,Twitter 和 ZeroMQ 读取数据,并进行处理。
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/spark-streaming-arch.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-streaming-arch.png"/> </div>
|
||||
|
||||
Spark Streaming 的本质是微批处理,它将数据流进行极小粒度的拆分,拆分为多个批处理,从而达到接近于流处理的效果。
|
||||
|
||||
<div align="center"> <img width="600px" src="../pictures/spark-streaming-flow.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-streaming-flow.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -28,7 +28,7 @@ sc.parallelize(data).foreach(x => counter += x)
|
||||
|
||||
counter 最后的结果是 0,导致这个问题的主要原因是闭包。
|
||||
|
||||
<div align="center"> <img src="../pictures/spark-累加器1.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-累加器1.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -59,13 +59,13 @@ val addMore = (x: Int) => x + more
|
||||
累加器的原理实际上很简单:就是将每个副本变量的最终值传回 Driver,由 Driver 聚合后得到最终值,并更新原始变量。
|
||||
|
||||
|
||||
<div align="center"> <img src="../pictures/spark-集群模式.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-集群模式.png"/> </div>
|
||||
|
||||
### 2.2 使用累加器
|
||||
|
||||
`SparkContext` 中定义了所有创建累加器的方法,需要注意的是:被中横线划掉的累加器方法在 Spark 2.0.0 之后被标识为废弃。
|
||||
|
||||
<div align="center"> <img src="../pictures/spark-累加器方法.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-累加器方法.png"/> </div>
|
||||
|
||||
使用示例和执行结果分别如下:
|
||||
|
||||
@ -78,7 +78,7 @@ sc.parallelize(data).foreach(x => accum.add(x))
|
||||
accum.value
|
||||
```
|
||||
|
||||
<div align="center"> <img src="../pictures/spark-累加器2.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-累加器2.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -67,7 +67,7 @@ spark-submit \
|
||||
|
||||
`spark-examples_2.11-2.4.0.jar` 是 Spark 提供的测试用例包,`SparkPi` 用于计算 Pi 值,执行结果如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/spark-pi.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-pi.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -82,7 +82,7 @@ Standalone 是 Spark 提供的一种内置的集群模式,采用内置的资
|
||||
|
||||
|
||||
|
||||
<div align="center"> <img src="../pictures/spark-集群模式.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-集群模式.png"/> </div>
|
||||
|
||||
### 3.1 环境配置
|
||||
|
||||
@ -131,7 +131,7 @@ hadoop002
|
||||
|
||||
访问 8080 端口,查看 Spark 的 Web-UI 界面,,此时应该显示有两个有效的工作节点:
|
||||
|
||||
<div align="center"> <img src="../pictures/spark-Standalone-web-ui.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-Standalone-web-ui.png"/> </div>
|
||||
|
||||
### 3.4 提交作业
|
||||
|
||||
@ -166,13 +166,13 @@ Initial job has not accepted any resources;
|
||||
check your cluster UI to ensure that workers are registered and have sufficient resources
|
||||
```
|
||||
|
||||
<div align="center"> <img src="../pictures/spark-内存不足2.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-内存不足2.png"/> </div>
|
||||
|
||||
<br/>
|
||||
|
||||
这时候可以查看 Web UI,我这里是内存空间不足:提交命令中要求作业的 `executor-memory` 是 2G,但是实际的工作节点的 `Memory` 只有 1G,这时候你可以修改 `--executor-memory`,也可以修改 Woker 的 `Memory`,其默认值为主机所有可用内存值减去 1G。
|
||||
|
||||
<div align="center"> <img src="../pictures/spark-内存不足.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-内存不足.png"/> </div>
|
||||
|
||||
<br/>
|
||||
|
||||
|
@ -30,7 +30,7 @@
|
||||
|
||||
### 2.1 项目结构
|
||||
|
||||
<div align="center"> <img src="../pictures/spring-mybatis-phoenix.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spring-mybatis-phoenix.png"/> </div>
|
||||
|
||||
### 2.2 主要依赖
|
||||
|
||||
@ -221,7 +221,7 @@ public class PopulationDaoTest {
|
||||
|
||||
### 3.1 项目结构
|
||||
|
||||
<div align="center"> <img src="../pictures/spring-boot-mybatis-phoenix.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spring-boot-mybatis-phoenix.png"/> </div>
|
||||
|
||||
### 3.2 主要依赖
|
||||
|
||||
|
@ -25,7 +25,7 @@
|
||||
# sqoop help
|
||||
```
|
||||
|
||||
<div align="center"> <img src="../pictures/sqoop-help.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/sqoop-help.png"/> </div>
|
||||
|
||||
<br/>
|
||||
|
||||
@ -50,7 +50,7 @@ sqoop list-databases \
|
||||
--password root
|
||||
```
|
||||
|
||||
<div align="center"> <img src="../pictures/sqoop-list-databases.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/sqoop-list-databases.png"/> </div>
|
||||
|
||||
<br/>
|
||||
|
||||
@ -92,7 +92,7 @@ sqoop import \
|
||||
+ 添加 `-- autoreset-to-one-mapper` 参数,代表只启动一个 `map task`,即不并行执行;
|
||||
+ 若仍希望并行执行,则可以使用 `--split-by <column-name>` 指明拆分数据的参考列。
|
||||
|
||||
<div align="center"> <img src="../pictures/sqoop-map-task.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/sqoop-map-task.png"/> </div>
|
||||
|
||||
#### 2. 导入验证
|
||||
|
||||
@ -105,7 +105,7 @@ hadoop fs -text /sqoop/part-m-00000
|
||||
|
||||
查看 HDFS 导入目录,可以看到表中数据被分为 3 部分进行存储,这是由指定的并行度决定的。
|
||||
|
||||
<div align="center"> <img src="../pictures/sqoop_hdfs_ls.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/sqoop_hdfs_ls.png"/> </div>
|
||||
|
||||
<br/>
|
||||
|
||||
@ -170,11 +170,11 @@ sqoop import \
|
||||
hive> SELECT * FROM sqoop_test.help_keyword;
|
||||
```
|
||||
|
||||
<div align="center"> <img src="../pictures/sqoop_hive_tables.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/sqoop_hive_tables.png"/> </div>
|
||||
|
||||
#### 3. 可能出现的问题
|
||||
|
||||
<div align="center"> <img src="../pictures/sqoop_hive_error.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/sqoop_hive_error.png"/> </div>
|
||||
|
||||
<br/>
|
||||
|
||||
@ -203,11 +203,11 @@ hive> desc formatted help_keyword;
|
||||
|
||||
`Location` 属性为其存储位置:
|
||||
|
||||
<div align="center"> <img src="../pictures/sqoop-hive-location.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/sqoop-hive-location.png"/> </div>
|
||||
|
||||
这里可以查看一下这个目录,文件结构如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/sqoop-hive-hdfs.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/sqoop-hive-hdfs.png"/> </div>
|
||||
|
||||
#### 3.2 执行导出命令
|
||||
|
||||
@ -265,7 +265,7 @@ hbase> desc 'help_keyword_hbase'
|
||||
|
||||
使用 `scan` 查看表数据:
|
||||
|
||||
<div align="center"> <img src="../pictures/sqoop_hbase.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/sqoop_hbase.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -21,13 +21,13 @@ Sqoop 是一个常用的数据迁移工具,主要用于在不同存储系统
|
||||
|
||||
其原理是将执行命令转化成 MapReduce 作业来实现数据的迁移,如下图:
|
||||
|
||||
<div align="center"> <img src="../pictures/sqoop-tool.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/sqoop-tool.png"/> </div>
|
||||
|
||||
## 二、安装
|
||||
|
||||
版本选择:目前 Sqoop 有 Sqoop 1 和 Sqoop 2 两个版本,但是截至到目前,官方并不推荐使用 Sqoop 2,因为其与 Sqoop 1 并不兼容,且功能还没有完善,所以这里优先推荐使用 Sqoop 1。
|
||||
|
||||
<div align="center"> <img src="../pictures/sqoop-version-selected.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/sqoop-version-selected.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -92,7 +92,7 @@ export ZOOCFGDIR=/usr/app/zookeeper-3.4.13/conf
|
||||
|
||||
将 MySQL 驱动包拷贝到 Sqoop 安装目录的 `lib` 目录下, 驱动包的下载地址为 https://dev.mysql.com/downloads/connector/j/ 。在本仓库的[resources](https://github.com/heibaiying/BigData-Notes/tree/master/resources) 目录下我也上传了一份,有需要的话可以自行下载。
|
||||
|
||||
<div align="center"> <img src="../pictures/sqoop-mysql-jar.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/sqoop-mysql-jar.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -106,7 +106,7 @@ export ZOOCFGDIR=/usr/app/zookeeper-3.4.13/conf
|
||||
|
||||
出现对应的版本信息则代表配置成功:
|
||||
|
||||
<div align="center"> <img src="../pictures/sqoop-version.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/sqoop-version.png"/> </div>
|
||||
|
||||
这里出现的两个 `Warning` 警告是因为我们本身就没有用到 `HCatalog` 和 `Accumulo`,忽略即可。Sqoop 在启动时会去检查环境变量中是否有配置这些软件,如果想去除这些警告,可以修改 `bin/configure-sqoop`,注释掉不必要的检查。
|
||||
|
||||
|
@ -176,7 +176,7 @@ maven-assembly-plugin 是官方文档中介绍的打包方法,来源于官方
|
||||
|
||||
打包后会同时生成两个 JAR 包,其中后缀为 `jar-with-dependencies` 是含有第三方依赖的 JAR 包,后缀是由 `assembly.xml` 中 `<id>` 标签指定的,可以自定义修改。提交该 JAR 到集群环境即可直接使用。
|
||||
|
||||
<div align="center"> <img src="../pictures/storm-jar.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/storm-jar.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -276,7 +276,7 @@ maven-assembly-plugin 是官方文档中介绍的打包方法,来源于官方
|
||||
|
||||
打包后会生成两个 JAR 包,提交到服务器集群时使用 ` 非 original` 开头的 JAR。
|
||||
|
||||
<div align="center"> <img src="../pictures/storm-jar2.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/storm-jar2.png"/> </div>
|
||||
|
||||
## 五、结论
|
||||
|
||||
@ -288,7 +288,7 @@ maven-assembly-plugin 是官方文档中介绍的打包方法,来源于官方
|
||||
|
||||
无论采用任何打包方式,都必须排除集群环境中已经提供的 storm jars。这里比较典型的是 storm-core,其在安装目录的 lib 目录下已经存在。
|
||||
|
||||
<div align="center"> <img src="../pictures/storm-lib.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/storm-lib.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -306,7 +306,7 @@ jar:file:/usr/appjar/storm-hdfs-integration-1.0.jar!/defaults.yaml]
|
||||
... 39 more
|
||||
```
|
||||
|
||||
<div align="center"> <img src="../pictures/storm-jar-complie-error.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/storm-jar-complie-error.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -37,7 +37,7 @@ Hadoop 采用 MapReduce 处理数据,而 MapReduce 主要是对数据进行批
|
||||
|
||||
Spark Streaming 并不是真正意义上的流处理框架。 Spark Streaming 接收实时输入的数据流,并将数据拆分为一系列批次,然后进行微批处理。只不过 Spark Streaming 能够将数据流进行极小粒度的拆分,使得其能够得到接近于流处理的效果,但其本质上还是批处理(或微批处理)。
|
||||
|
||||
<div align="center"> <img src="../pictures/streaming-flow.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/streaming-flow.png"/> </div>
|
||||
|
||||
#### 1.4 Strom 与 Flink对比
|
||||
|
||||
@ -64,7 +64,7 @@ storm 和 Flink 都是真正意义上的实时计算框架。其对比如下:
|
||||
|
||||
在流处理之前,数据通常存储在数据库或文件系统中,应用程序根据需要查询或计算数据,这就是传统的静态数据处理架构。Hadoop 采用 HDFS 进行数据存储,采用 MapReduce 进行数据查询或分析,这就是典型的静态数据处理架构。
|
||||
|
||||
<div align="center"> <img src="../pictures/01_data_at_rest_infrastructure.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/01_data_at_rest_infrastructure.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -74,7 +74,7 @@ storm 和 Flink 都是真正意义上的实时计算框架。其对比如下:
|
||||
|
||||
接收和发送数据流并执行应用程序或分析逻辑的系统称为**流处理器**。流处理器的基本职责是确保数据有效流动,同时具备可扩展性和容错能力,Storm 和 Flink 就是其代表性的实现。
|
||||
|
||||
<div align="center"> <img src="../pictures/02_stream_processing_infrastructure.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/02_stream_processing_infrastructure.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -18,7 +18,7 @@
|
||||
|
||||
## 一、Storm核心概念
|
||||
|
||||
<div align="center"> <img src="../pictures/spout-bolt.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spout-bolt.png"/> </div>
|
||||
|
||||
### 1.1 Topologies(拓扑)
|
||||
|
||||
@ -38,7 +38,7 @@
|
||||
|
||||
### 1.5 Stream groupings(分组策略)
|
||||
|
||||
<div align="center"> <img width="400px" src="../pictures/topology-tasks.png"/> </div>
|
||||
<div align="center"> <img width="400px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/topology-tasks.png"/> </div>
|
||||
|
||||
`spouts` 和 `bolts` 在集群上执行任务时,是由多个 Task 并行执行 (如上图,每一个圆圈代表一个 Task)。当一个 Tuple 需要从 Bolt A 发送给 Bolt B 执行的时候,程序如何知道应该发送给 Bolt B 的哪一个 Task 执行呢?
|
||||
|
||||
@ -80,7 +80,7 @@
|
||||
|
||||
## 二、Storm架构详解
|
||||
|
||||
<div align="center"> <img src="../pictures/Internal-Working-of-Apache-Storm.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/Internal-Working-of-Apache-Storm.png"/> </div>
|
||||
|
||||
### 2.1 Nimbus进程
|
||||
|
||||
@ -132,7 +132,7 @@ Storm 集群的任务执行者 ,循环执行 Task 代码。主要功能如下
|
||||
|
||||
### 2.6 并行度
|
||||
|
||||
<div align="center"> <img src="../pictures/relationships-worker-processes-executors-tasks.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/relationships-worker-processes-executors-tasks.png"/> </div>
|
||||
|
||||
1 个 Worker 进程执行的是 1 个 Topology 的子集,不会出现 1 个 Worker 为多个 Topology 服务的情况,因此 1 个运行中的 Topology 就是由集群中多台物理机上的多个 Worker 进程组成的。1 个 Worker 进程会启动 1 个或多个 Executor 线程来执行 1 个 Topology 的 Component(组件,即 Spout 或 Bolt)。
|
||||
|
||||
|
@ -22,7 +22,7 @@
|
||||
|
||||
下图为 Strom 的运行流程图,在开发 Storm 流处理程序时,我们需要采用内置或自定义实现 `spout`(数据源) 和 `bolt`(处理单元),并通过 `TopologyBuilder` 将它们之间进行关联,形成 `Topology`。
|
||||
|
||||
<div align="center"> <img src="../pictures/spout-bolt.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spout-bolt.png"/> </div>
|
||||
|
||||
## 二、IComponent接口
|
||||
|
||||
@ -101,7 +101,7 @@ public interface ISpout extends Serializable {
|
||||
|
||||
**通常情况下,我们实现自定义的 Spout 时不会直接去实现 `ISpout` 接口,而是继承 `BaseRichSpout`。**`BaseRichSpout` 继承自 `BaseCompont`,同时实现了 `IRichSpout` 接口。
|
||||
|
||||
<div align="center"> <img src="../pictures/storm-baseRichSpout.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/storm-baseRichSpout.png"/> </div>
|
||||
|
||||
`IRichSpout` 接口继承自 `ISpout` 和 `IComponent`,自身并没有定义任何方法:
|
||||
|
||||
@ -192,7 +192,7 @@ public interface IBolt extends Serializable {
|
||||
|
||||
同样的,在实现自定义 bolt 时,通常是继承 `BaseRichBolt` 抽象类来实现。`BaseRichBolt` 继承自 `BaseComponent` 抽象类并实现了 `IRichBolt` 接口。
|
||||
|
||||
<div align="center"> <img src="../pictures/storm-baseRichbolt.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/storm-baseRichbolt.png"/> </div>
|
||||
|
||||
`IRichBolt` 接口继承自 `IBolt` 和 `IComponent`,自身并没有定义任何方法:
|
||||
|
||||
@ -216,7 +216,7 @@ public interface IRichBolt extends IBolt, IComponent {
|
||||
|
||||
这里我们使用自定义的 `DataSourceSpout` 产生词频数据,然后使用自定义的 `SplitBolt` 和 `CountBolt` 来进行词频统计。
|
||||
|
||||
<div align="center"> <img src="../pictures/storm-word-count-p.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/storm-word-count-p.png"/> </div>
|
||||
|
||||
> 案例源码下载地址:[storm-word-count](https://github.com/heibaiying/BigData-Notes/tree/master/code/Storm/storm-word-count)
|
||||
|
||||
@ -382,7 +382,7 @@ public class LocalWordCountApp {
|
||||
|
||||
启动 `WordCountApp` 的 main 方法即可运行,采用本地模式 Storm 会自动在本地搭建一个集群,所以启动的过程会稍慢一点,启动成功后即可看到输出日志。
|
||||
|
||||
<div align="center"> <img src="../pictures/storm-word-count-console.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/storm-word-count-console.png"/> </div>
|
||||
|
||||
|
||||
## 六、提交到服务器集群运行
|
||||
@ -437,7 +437,7 @@ storm jar /usr/appjar/storm-word-count-1.0.jar com.heibaiying.wordcount.Cluster
|
||||
|
||||
出现 `successfully` 则代表提交成功:
|
||||
|
||||
<div align="center"> <img src="../pictures/storm-submit-success.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/storm-submit-success.png"/> </div>
|
||||
|
||||
### 6.4 查看Topology与停止Topology(命令行方式)
|
||||
|
||||
@ -449,13 +449,13 @@ storm list
|
||||
storm kill ClusterWordCountApp -w 3
|
||||
```
|
||||
|
||||
<div align="center"> <img src="../pictures/storm-list-kill.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/storm-list-kill.png"/> </div>
|
||||
|
||||
### 6.5 查看Topology与停止Topology(界面方式)
|
||||
|
||||
使用 UI 界面同样也可进行停止操作,进入 WEB UI 界面(8080 端口),在 `Topology Summary` 中点击对应 Topology 即可进入详情页面进行操作。
|
||||
|
||||
<div align="center"> <img src="../pictures/storm-ui-actions.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/storm-ui-actions.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -472,7 +472,7 @@ storm kill ClusterWordCountApp -w 3
|
||||
|
||||
这时候可能大家会有疑惑,在我们的项目中不是使用了 `storm-core` 这个依赖吗?其实上面之所以我们能运行成功,是因为在 Storm 的集群环境中提供了这个 JAR 包,在安装目录的 lib 目录下:
|
||||
|
||||
<div align="center"> <img src="../pictures/storm-lib.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/storm-lib.png"/> </div>
|
||||
为了说明这个问题我在 Maven 中引入了一个第三方的 JAR 包,并修改产生数据的方法:
|
||||
|
||||
```xml
|
||||
@ -498,7 +498,7 @@ private String productData() {
|
||||
|
||||
此时直接使用 `mvn clean package` 打包运行,就会抛出下图的异常。因此这种直接打包的方式并不适用于实际的开发,因为实际开发中通常都是需要第三方的 JAR 包。
|
||||
|
||||
<div align="center"> <img src="../pictures/storm-package-error.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/storm-package-error.png"/> </div>
|
||||
|
||||
|
||||
想把依赖包一并打入最后的 JAR 中,maven 提供了两个插件来实现,分别是 `maven-assembly-plugin` 和 `maven-shade-plugin`。鉴于本篇文章篇幅已经比较长,且关于 Storm 打包还有很多需要说明的地方,所以关于 Storm 的打包方式单独整理至下一篇文章:
|
||||
|
@ -9,7 +9,7 @@
|
||||
|
||||
### 1.1 项目结构
|
||||
|
||||
<div align="center"> <img src="../pictures/datasourcetohdfs.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/datasourcetohdfs.png"/> </div>
|
||||
|
||||
> 本用例源码下载地址:[storm-hdfs-integration](https://github.com/heibaiying/BigData-Notes/tree/master/code/Storm/storm-hdfs-integration)
|
||||
|
||||
@ -218,7 +218,7 @@ hadoop fs -tail -f /strom-hdfs/文件名
|
||||
|
||||
|
||||
|
||||
<div align="center"> <img src="../pictures/storm-hdfs-result.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/storm-hdfs-result.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -228,7 +228,7 @@ hadoop fs -tail -f /strom-hdfs/文件名
|
||||
|
||||
集成用例: 进行词频统计并将最后的结果存储到 HBase,项目主要结构如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/WordCountToHBaseApp.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/WordCountToHBaseApp.png"/> </div>
|
||||
|
||||
> 本用例源码下载地址:[storm-hbase-integration](https://github.com/heibaiying/BigData-Notes/tree/master/code/Storm/storm-hbase-integration)
|
||||
|
||||
@ -465,7 +465,7 @@ public class WordCountToHBaseApp {
|
||||
hbase > scan 'WordCount'
|
||||
```
|
||||
|
||||
<div align="center"> <img src="../pictures/storm-hbase-result.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/storm-hbase-result.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -20,7 +20,7 @@ Storm 官方对 Kafka 的整合分为两个版本,官方说明文档分别如
|
||||
|
||||
### 2.1 项目结构
|
||||
|
||||
<div align="center"> <img src="../pictures/writetokafka.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/writetokafka.png"/> </div>
|
||||
|
||||
### 2.2 项目主要依赖
|
||||
|
||||
@ -214,7 +214,7 @@ bin/kafka-topics.sh --create --bootstrap-server hadoop001:9092 --replication-fac
|
||||
|
||||
启动后,消费者监听情况如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/strom-kafka-consumer.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/strom-kafka-consumer.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -222,7 +222,7 @@ bin/kafka-topics.sh --create --bootstrap-server hadoop001:9092 --replication-fac
|
||||
|
||||
### 3.1 项目结构
|
||||
|
||||
<div align="center"> <img src="../pictures/readfromkafka.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/readfromkafka.png"/> </div>
|
||||
|
||||
### 3.2 ReadingFromKafkaApp
|
||||
|
||||
@ -348,11 +348,11 @@ public class DefaultRecordTranslator<K, V> implements RecordTranslator<K, V> {
|
||||
# bin/kafka-console-producer.sh --broker-list hadoop001:9092 --topic storm-topic
|
||||
```
|
||||
|
||||
<div align="center"> <img src="../pictures/storm-kafka-producer.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/storm-kafka-producer.png"/> </div>
|
||||
|
||||
本地运行的项目接收到从 Kafka 发送过来的数据:
|
||||
|
||||
<div align="center"> <img src="../pictures/storm-kafka-receiver.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/storm-kafka-receiver.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -37,7 +37,7 @@ Storm-Redis 使用 Jedis 为 Redis 客户端,并提供了如下三个基本的
|
||||
|
||||
这里首先给出一个集成案例:进行词频统计并将最后的结果存储到 Redis。项目结构如下:
|
||||
|
||||
<div align="center"> <img src="../pictures/storm-wordcounttoredis.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/storm-wordcounttoredis.png"/> </div>
|
||||
|
||||
> 用例源码下载地址:[storm-redis-integration](https://github.com/heibaiying/BigData-Notes/tree/master/code/Storm/storm-redis-integration)
|
||||
|
||||
@ -283,7 +283,7 @@ public class WordCountToRedisApp {
|
||||
|
||||
启动后,查看 Redis 中的数据:
|
||||
|
||||
<div align="center"> <img src="../pictures/store-redis-manager.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/store-redis-manager.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -295,7 +295,7 @@ public class WordCountToRedisApp {
|
||||
|
||||
|
||||
|
||||
<div align="center"> <img src="../pictures/storm-abstractRedisBolt.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/storm-abstractRedisBolt.png"/> </div>
|
||||
|
||||
`AbstractRedisBolt` 中比较重要的是 prepare 方法,在该方法中通过外部传入的 jedis 连接池配置 ( jedisPoolConfig/jedisClusterConfig) 创建用于管理 Jedis 实例的容器 `JedisCommandsInstanceContainer`。
|
||||
|
||||
@ -440,13 +440,13 @@ public class RedisStoreBolt extends AbstractRedisBolt {
|
||||
|
||||
JedisCommands 接口中定义了所有的 Redis 客户端命令,它有以下三个实现类,分别是 Jedis、JedisCluster、ShardedJedis。Strom 中主要使用前两种实现类,具体调用哪一个实现类来执行命令,由传入的是 jedisPoolConfig 还是 jedisClusterConfig 来决定。
|
||||
|
||||
<div align="center"> <img src="../pictures/storm-jedicCommands.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/storm-jedicCommands.png"/> </div>
|
||||
|
||||
### 3.4 RedisMapper 和 TupleMapper
|
||||
|
||||
RedisMapper 和 TupleMapper 定义了 tuple 和 Redis 中的数据如何进行映射转换。
|
||||
|
||||
<div align="center"> <img src="../pictures/storm-Redis-Mapper.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/storm-Redis-Mapper.png"/> </div>
|
||||
|
||||
#### 1. TupleMapper
|
||||
|
||||
@ -553,7 +553,7 @@ redis>
|
||||
|
||||
### 4.2 项目结构
|
||||
|
||||
<div align="center"> <img src="../pictures/CustomRedisCountApp.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/CustomRedisCountApp.png"/> </div>
|
||||
|
||||
### 4.3 自定义RedisBolt的代码实现
|
||||
|
||||
|
@ -145,7 +145,7 @@ Authentication is not valid : /hive # 当前主机已经不能访问
|
||||
"-Dzookeeper.DigestAuthenticationProvider.superDigest=heibai:sCxtVJ1gPG8UW/jzFHR0A1ZKY5s="
|
||||
```
|
||||
|
||||
<div align="center"> <img src="../pictures/zookeeper-super.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/zookeeper-super.png"/> </div>
|
||||
|
||||
修改完成后需要使用 `zkServer.sh restart` 重启服务,此时再次访问限制 IP 的节点:
|
||||
|
||||
|
@ -91,7 +91,7 @@ public class BasicOperation {
|
||||
|
||||
在连接 Zookeeper 时,Curator 提供了多种重试策略以满足各种需求,所有重试策略均继承自 `RetryPolicy` 接口,如下图:
|
||||
|
||||
<div align="center"> <img src="../pictures/curator-retry-policy.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/curator-retry-policy.png"/> </div>
|
||||
|
||||
这些重试策略类主要分为以下两类:
|
||||
|
||||
|
@ -42,13 +42,13 @@ Zookeeper 致力于为那些高吞吐的大型分布式系统提供一个高性
|
||||
|
||||
Zookeeper 通过树形结构来存储数据,它由一系列被称为 ZNode 的数据节点组成,类似于常见的文件系统。不过和常见的文件系统不同,Zookeeper 将数据全量存储在内存中,以此来实现高吞吐,减少访问延迟。
|
||||
|
||||
<div align="center"> <img src="../pictures/zookeeper-zknamespace.jpg"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/zookeeper-zknamespace.jpg"/> </div>
|
||||
|
||||
### 2.2 目标二:构建集群
|
||||
|
||||
可以由一组 Zookeeper 服务构成 Zookeeper 集群,集群中每台机器都会单独在内存中维护自身的状态,并且每台机器之间都保持着通讯,只要集群中有半数机器能够正常工作,那么整个集群就可以正常提供服务。
|
||||
|
||||
<div align="center"> <img src="../pictures/zookeeper-zkservice.jpg"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/zookeeper-zkservice.jpg"/> </div>
|
||||
|
||||
### 2.3 目标三:顺序访问
|
||||
|
||||
@ -127,7 +127,7 @@ ZAB 协议是 Zookeeper 专门设计的一种支持崩溃恢复的原子广播
|
||||
|
||||
Zookeeper 使用一个单一的主进程来接收并处理客户端的所有事务请求,并采用原子广播协议将数据状态的变更以事务 Proposal 的形式广播到所有的副本进程上去。如下图:
|
||||
|
||||
<div align="center"> <img src="../pictures/zookeeper-zkcomponents.jpg"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/zookeeper-zkcomponents.jpg"/> </div>
|
||||
|
||||
具体流程如下:
|
||||
|
||||
@ -147,7 +147,7 @@ ZAB 协议的消息广播过程使用的是原子广播协议。在整个消息
|
||||
|
||||
Leader 服务会为每一个 Follower 服务器分配一个单独的队列,然后将事务 Proposal 依次放入队列中,并根据 FIFO(先进先出) 的策略进行消息发送。Follower 服务在接收到 Proposal 后,会将其以事务日志的形式写入本地磁盘中,并在写入成功后反馈给 Leader 一个 Ack 响应。当 Leader 接收到超过半数 Follower 的 Ack 响应后,就会广播一个 Commit 消息给所有的 Follower 以通知其进行事务提交,之后 Leader 自身也会完成对事务的提交。而每一个 Follower 则在接收到 Commit 消息后,完成事务的提交。
|
||||
|
||||
<div align="center"> <img src="../pictures/zookeeper-brocast.jpg"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/zookeeper-brocast.jpg"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -37,7 +37,7 @@ Azkaban 3.70.0 编译需要依赖 `gradle-4.6-all.zip`。Gradle 是一个项目
|
||||
|
||||
需要注意的是不同版本的 Azkaban 依赖 Gradle 版本不同,可以在解压后的 `/gradle/wrapper/gradle-wrapper.properties` 文件查看
|
||||
|
||||
<div align="center"> <img src="../../pictures/azkaban-gradle-wrapper.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/azkaban-gradle-wrapper.png"/> </div>
|
||||
|
||||
在编译时程序会自动去图中所示的地址进行下载,但是下载速度很慢。为避免影响编译过程,建议先手动下载至 `/gradle/wrapper/` 目录下:
|
||||
|
||||
@ -47,7 +47,7 @@ Azkaban 3.70.0 编译需要依赖 `gradle-4.6-all.zip`。Gradle 是一个项目
|
||||
|
||||
然后修改配置文件 `gradle-wrapper.properties` 中的 `distributionUrl` 属性,指明使用本地的 gradle。
|
||||
|
||||
<div align="center"> <img src="../../pictures/azkaban-gradle-wrapper-2.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/azkaban-gradle-wrapper-2.png"/> </div>
|
||||
|
||||
#### 3. Git
|
||||
|
||||
@ -100,7 +100,7 @@ tar -zxvf azkaban-solo-server-3.70.0.tar.gz
|
||||
|
||||
这一步不是必须的。但是因为 Azkaban 默认采用的时区是 `America/Los_Angeles`,如果你的调度任务中有定时任务的话,就需要进行相应的更改,这里我更改为常用的 `Asia/Shanghai`
|
||||
|
||||
<div align="center"> <img src="../../pictures/azkaban-setting.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/azkaban-setting.png"/> </div>
|
||||
|
||||
### 2.3 启动
|
||||
|
||||
@ -114,11 +114,11 @@ tar -zxvf azkaban-solo-server-3.70.0.tar.gz
|
||||
|
||||
验证方式一:使用 `jps` 命令查看是否有 `AzkabanSingleServer` 进程:
|
||||
|
||||
<div align="center"> <img src="../../pictures/akaban-jps.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/akaban-jps.png"/> </div>
|
||||
<br/>
|
||||
|
||||
验证方式二:访问 8081 端口,查看 Web UI 界面,默认的登录名密码都是 `azkaban`,如果需要修改或新增用户,可以在 `conf/azkaban-users.xml ` 文件中进行配置:
|
||||
|
||||
<div align="center"> <img width="700px" src="../../pictures/azkaban-web-ui.png"/> </div>
|
||||
<div align="center"> <img width="700px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/azkaban-web-ui.png"/> </div>
|
||||
|
||||
|
||||
|
@ -49,7 +49,7 @@ bin/start-cluster.sh
|
||||
|
||||
Flink 提供了 WEB 界面用于直观的管理 Flink 集群,访问端口为 `8081`:
|
||||
|
||||
<div align="center"> <img src="../../pictures/flink-dashboard.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-dashboard.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -83,13 +83,13 @@ a a b b c c c a e
|
||||
|
||||
可以通过 WEB UI 的控制台查看作业统运行情况:
|
||||
|
||||
<div align="center"> <img src="../../pictures/flink-socket-wordcount.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-socket-wordcount.png"/> </div>
|
||||
|
||||
|
||||
|
||||
也可以通过 WEB 控制台查看到统计结果:
|
||||
|
||||
<div align="center"> <img src="../../pictures/flink-socket-wordcount-stdout.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-socket-wordcount-stdout.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -160,7 +160,7 @@ bin/start-cluster.sh
|
||||
|
||||
此时控制台输出如下:
|
||||
|
||||
<div align="center"> <img src="../../pictures/flink-start-cluster-shell.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-start-cluster-shell.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -223,13 +223,13 @@ bin/start-cluster.sh
|
||||
|
||||
此时输出如下:
|
||||
|
||||
<div align="center"> <img src="../../pictures/flink-standalone-cluster-ha.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-standalone-cluster-ha.png"/> </div>
|
||||
|
||||
|
||||
|
||||
可以看到集群已经以 HA 的模式启动,此时还需要在各个节点上使用 `jps` 命令来查看进程是否启动成功,正常情况如下:
|
||||
|
||||
<div align="center"> <img src="../../pictures/flink-standalone-cluster-jps.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-standalone-cluster-jps.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -255,7 +255,7 @@ the classpath/dependencies.
|
||||
|
||||
可以看到是因为在 classpath 目录下找不到 Hadoop 的相关依赖,此时需要检查是否在环境变量中配置了 Hadoop 的安装路径,如果路径已经配置但仍然存在上面的问题,可以从 [Flink 官网](https://flink.apache.org/downloads.html)下载对应版本的 Hadoop 组件包:
|
||||
|
||||
<div align="center"> <img src="../../pictures/flink-optional-components.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/flink-optional-components.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -106,7 +106,7 @@ export JAVA_HOME=/usr/java/jdk1.8.0_201
|
||||
|
||||
验证方式二 :访问 HBaseWeb UI 页面,默认端口为 `16010` 。
|
||||
|
||||
<div align="center"> <img src="../../pictures/hbase-web-ui.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hbase-web-ui.png"/> </div>
|
||||
|
||||
|
||||
## 三、伪集群模式安装(Pseudo-Distributed)
|
||||
@ -224,4 +224,4 @@ hadoop001
|
||||
|
||||
验证方式二 :访问 HBase Web UI 界面,需要注意的是 1.2 版本的 HBase 的访问端口为 `60010`
|
||||
|
||||
<div align="center"> <img src="../../pictures/hbase-60010.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hbase-60010.png"/> </div>
|
||||
|
@ -22,7 +22,7 @@
|
||||
|
||||
这里搭建一个 3 节点的 HBase 集群,其中三台主机上均为 `Regin Server`。同时为了保证高可用,除了在 hadoop001 上部署主 `Master` 服务外,还在 hadoop002 上部署备用的 `Master` 服务。Master 服务由 Zookeeper 集群进行协调管理,如果主 `Master` 不可用,则备用 `Master` 会成为新的主 `Master`。
|
||||
|
||||
<div align="center"> <img src="../../pictures/hbase集群规划.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hbase集群规划.png"/> </div>
|
||||
|
||||
## 二、前置条件
|
||||
|
||||
@ -190,11 +190,11 @@ start-hbase.sh
|
||||
|
||||
访问 HBase 的 Web-UI 界面,这里我安装的 HBase 版本为 1.2,访问端口为 `60010`,如果你安装的是 2.0 以上的版本,则访问端口号为 `16010`。可以看到 `Master` 在 hadoop001 上,三个 `Regin Servers` 分别在 hadoop001,hadoop002,和 hadoop003 上,并且还有一个 `Backup Matser` 服务在 hadoop002 上。
|
||||
|
||||
<div align="center"> <img src="../../pictures/hbase-集群搭建1.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hbase-集群搭建1.png"/> </div>
|
||||
<br/>
|
||||
|
||||
hadoop002 上的 HBase 出于备用状态:
|
||||
|
||||
<br/>
|
||||
|
||||
<div align="center"> <img src="../../pictures/hbase-集群搭建2.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hbase-集群搭建2.png"/> </div>
|
||||
|
@ -195,7 +195,7 @@ sudo systemctl stop firewalld.service
|
||||
|
||||
方式二:查看 Web UI 界面,端口为 `50070`:
|
||||
|
||||
<div align="center"> <img width="700px" src="../../pictures/hadoop安装验证.png"/> </div>
|
||||
<div align="center"> <img width="700px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hadoop安装验证.png"/> </div>
|
||||
|
||||
|
||||
## 四、Hadoop(YARN)环境搭建
|
||||
@ -259,4 +259,4 @@ cp mapred-site.xml.template mapred-site.xml
|
||||
|
||||
方式二:查看 Web UI 界面,端口号为 `8088`:
|
||||
|
||||
<div align="center"> <img width="700px" src="../../pictures/hadoop-yarn安装验证.png"/> </div>
|
||||
<div align="center"> <img width="700px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hadoop-yarn安装验证.png"/> </div>
|
||||
|
@ -23,7 +23,7 @@
|
||||
|
||||
这里搭建一个 3 节点的 Hadoop 集群,其中三台主机均部署 `DataNode` 和 `NodeManager` 服务,但只有 hadoop001 上部署 `NameNode` 和 `ResourceManager` 服务。
|
||||
|
||||
<div align="center"> <img src="../../pictures/hadoop集群规划.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hadoop集群规划.png"/> </div>
|
||||
|
||||
## 二、前置条件
|
||||
|
||||
@ -210,17 +210,17 @@ start-yarn.sh
|
||||
|
||||
在每台服务器上使用 `jps` 命令查看服务进程,或直接进入 Web-UI 界面进行查看,端口为 `50070`。可以看到此时有三个可用的 `Datanode`:
|
||||
|
||||
<div align="center"> <img src="../../pictures/hadoop-集群环境搭建.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hadoop-集群环境搭建.png"/> </div>
|
||||
<BR/>
|
||||
|
||||
点击 `Live Nodes` 进入,可以看到每个 `DataNode` 的详细情况:
|
||||
|
||||
<div align="center"> <img src="../../pictures/hadoop-集群搭建2.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hadoop-集群搭建2.png"/> </div>
|
||||
<BR/>
|
||||
|
||||
接着可以查看 Yarn 的情况,端口号为 `8088` :
|
||||
|
||||
<div align="center"> <img src="../../pictures/hadoop-集群搭建3.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hadoop-集群搭建3.png"/> </div>
|
||||
|
||||
|
||||
## 五、提交服务到集群
|
||||
|
@ -98,7 +98,7 @@ HADOOP_HOME=/usr/app/hadoop-2.6.0-cdh5.15.2
|
||||
|
||||
将 MySQL 驱动包拷贝到 Hive 安装目录的 `lib` 目录下, MySQL 驱动的下载地址为:https://dev.mysql.com/downloads/connector/j/ , 在本仓库的[resources](https://github.com/heibaiying/BigData-Notes/tree/master/resources) 目录下我也上传了一份,有需要的可以自行下载。
|
||||
|
||||
<div align="center"> <img src="../../pictures/hive-mysql.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hive-mysql.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -123,11 +123,11 @@ HADOOP_HOME=/usr/app/hadoop-2.6.0-cdh5.15.2
|
||||
# hive
|
||||
```
|
||||
|
||||
<div align="center"> <img src="../../pictures/hive-install-2.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hive-install-2.png"/> </div>
|
||||
|
||||
在 Mysql 中也能看到 Hive 创建的库和存放元数据信息的表
|
||||
|
||||
<div align="center"> <img src="../../pictures/hive-mysql-tables.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hive-mysql-tables.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -178,4 +178,4 @@ Hive 内置了 HiveServer 和 HiveServer2 服务,两者都允许客户端使
|
||||
# beeline -u jdbc:hive2://hadoop001:10000 -n root
|
||||
```
|
||||
|
||||
<div align="center"> <img src="../../pictures/hive-beeline-cli.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hive-beeline-cli.png"/> </div>
|
||||
|
@ -12,7 +12,7 @@
|
||||
|
||||
官方下载地址:http://spark.apache.org/downloads.html ,选择 Spark 版本和对应的 Hadoop 版本后再下载:
|
||||
|
||||
<div align="center"> <img width="600px" src="../../pictures/spark-download.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-download.png"/> </div>
|
||||
|
||||
解压安装包:
|
||||
|
||||
@ -54,7 +54,7 @@ spark-shell --master local[2]
|
||||
- **local[k]**:启动 k 个工作线程;
|
||||
- **local[*]**:启动跟 cpu 数目相同的工作线程数。
|
||||
|
||||
<div align="center"> <img src="../../pictures/spark-shell-local.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-shell-local.png"/> </div>
|
||||
|
||||
<br/>
|
||||
|
||||
@ -86,11 +86,11 @@ wordCounts.collect
|
||||
|
||||
执行过程如下,可以看到已经输出了词频统计的结果:
|
||||
|
||||
<div align="center"> <img src="../../pictures/spark-shell.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-shell.png"/> </div>
|
||||
|
||||
同时还可以通过 Web UI 查看作业的执行情况,访问端口为 `4040`:
|
||||
|
||||
<div align="center"> <img src="../../pictures/spark-shell-web-ui.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-shell-web-ui.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -108,7 +108,7 @@ Scala 的运行依赖于 JDK,所以需要你本机有安装对应版本的 JDK
|
||||
|
||||
IDEA 默认不支持 Scala 语言的开发,需要通过插件进行扩展。打开 IDEA,依次点击 **File** => **settings**=> **plugins** 选项卡,搜索 Scala 插件 (如下图)。找到插件后进行安装,并重启 IDEA 使得安装生效。
|
||||
|
||||
<div align="center"> <img width="700px" src="../../pictures/idea-scala-plugin.png"/> </div>
|
||||
<div align="center"> <img width="700px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/idea-scala-plugin.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -116,7 +116,7 @@ IDEA 默认不支持 Scala 语言的开发,需要通过插件进行扩展。
|
||||
|
||||
在 IDEA 中依次点击 **File** => **New** => **Project** 选项卡,然后选择创建 `Scala—IDEA` 工程:
|
||||
|
||||
<div align="center"> <img width="700px" src="../../pictures/idea-newproject-scala.png"/> </div>
|
||||
<div align="center"> <img width="700px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/idea-newproject-scala.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -126,7 +126,7 @@ IDEA 默认不支持 Scala 语言的开发,需要通过插件进行扩展。
|
||||
|
||||
此时看到 `Scala SDK` 为空,依次点击 `Create` => `Download` ,选择所需的版本后,点击 `OK` 按钮进行下载,下载完成点击 `Finish` 进入工程。
|
||||
|
||||
<div align="center"> <img width="700px" src="../../pictures/idea-scala-select.png"/> </div>
|
||||
<div align="center"> <img width="700px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/idea-scala-select.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -136,13 +136,13 @@ IDEA 默认不支持 Scala 语言的开发,需要通过插件进行扩展。
|
||||
|
||||
这里我的系统是 Windows,下载 msi 版本的安装包后,一直点击下一步进行安装,安装完成后会自动配置好环境变量。
|
||||
|
||||
<div align="center"> <img width="700px" src="../../pictures/scala-other-resources.png"/> </div>
|
||||
<div align="center"> <img width="700px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/scala-other-resources.png"/> </div>
|
||||
|
||||
|
||||
|
||||
由于安装时已经自动配置好环境变量,所以 IDEA 会自动选择对应版本的 SDK。
|
||||
|
||||
<div align="center"> <img width="700px" src="../../pictures/idea-scala-2.1.8.png"/> </div>
|
||||
<div align="center"> <img width="700px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/idea-scala-2.1.8.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -150,7 +150,7 @@ IDEA 默认不支持 Scala 语言的开发,需要通过插件进行扩展。
|
||||
|
||||
在工程 `src` 目录上右击 **New** => **Scala class** 创建 `Hello.scala`。输入代码如下,完成后点击运行按钮,成功运行则代表搭建成功。
|
||||
|
||||
<div align="center"> <img width="700px" src="../../pictures/scala-hello-world.png"/> </div>
|
||||
<div align="center"> <img width="700px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/scala-hello-world.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -160,7 +160,7 @@ IDEA 默认不支持 Scala 语言的开发,需要通过插件进行扩展。
|
||||
|
||||
在日常的开发中,由于对应软件(如 Spark)的版本切换,可能导致需要切换 Scala 的版本,则可以在 `Project Structures` 中的 `Global Libraries` 选项卡中进行切换。
|
||||
|
||||
<div align="center"> <img width="700px" src="../../pictures/idea-scala-change.png"/> </div>
|
||||
<div align="center"> <img width="700px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/idea-scala-change.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -170,7 +170,7 @@ IDEA 默认不支持 Scala 语言的开发,需要通过插件进行扩展。
|
||||
|
||||
在 IDEA 中有时候重新打开项目后,右击并不会出现新建 `scala` 文件的选项,或者在编写时没有 Scala 语法提示,此时可以先删除 `Global Libraries` 中配置好的 SDK,之后再重新添加:
|
||||
|
||||
<div align="center"> <img src="../../pictures/scala-sdk.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/scala-sdk.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -22,7 +22,7 @@
|
||||
|
||||
这里搭建一个 3 节点的 Spark 集群,其中三台主机上均部署 `Worker` 服务。同时为了保证高可用,除了在 hadoop001 上部署主 `Master` 服务外,还在 hadoop002 和 hadoop003 上分别部署备用的 `Master` 服务,Master 服务由 Zookeeper 集群进行协调管理,如果主 `Master` 不可用,则备用 `Master` 会成为新的主 `Master`。
|
||||
|
||||
<div align="center"> <img src="../../pictures/spark集群规划.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark集群规划.png"/> </div>
|
||||
|
||||
## 二、前置条件
|
||||
|
||||
@ -38,7 +38,7 @@
|
||||
|
||||
下载所需版本的 Spark,官网下载地址:http://spark.apache.org/downloads.html
|
||||
|
||||
<div align="center"> <img width="600px" src="../../pictures/spark-download.png"/> </div>
|
||||
<div align="center"> <img width="600px" src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-download.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -151,13 +151,13 @@ start-master.sh
|
||||
|
||||
查看 Spark 的 Web-UI 页面,端口为 `8080`。此时可以看到 hadoop001 上的 Master 节点处于 `ALIVE` 状态,并有 3 个可用的 `Worker` 节点。
|
||||
|
||||
<div align="center"> <img src="../../pictures/spark-集群搭建1.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-集群搭建1.png"/> </div>
|
||||
|
||||
而 hadoop002 和 hadoop003 上的 Master 节点均处于 `STANDBY` 状态,没有可用的 `Worker` 节点。
|
||||
|
||||
<div align="center"> <img src="../../pictures/spark-集群搭建2.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-集群搭建2.png"/> </div>
|
||||
|
||||
<div align="center"> <img src="../../pictures/spark-集群搭建3.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-集群搭建3.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -165,11 +165,11 @@ start-master.sh
|
||||
|
||||
此时可以使用 `kill` 命令杀死 hadoop001 上的 `Master` 进程,此时备用 `Master` 会中会有一个再次成为 ` 主 Master`,我这里是 hadoop002,可以看到 hadoop2 上的 `Master` 经过 `RECOVERING` 后成为了新的主 `Master`,并且获得了全部可以用的 `Workers`。
|
||||
|
||||
<div align="center"> <img src="../../pictures/spark-集群搭建4.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-集群搭建4.png"/> </div>
|
||||
|
||||
Hadoop002 上的 `Master` 成为主 `Master`,并获得了全部可以用的 `Workers`。
|
||||
|
||||
<div align="center"> <img src="../../pictures/spark-集群搭建5.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-集群搭建5.png"/> </div>
|
||||
|
||||
此时如果你再在 hadoop001 上使用 `start-master.sh` 启动 Master 服务,那么其会作为备用 `Master` 存在。
|
||||
|
||||
|
@ -78,4 +78,4 @@ nohup sh storm logviewer &
|
||||
|
||||
验证方式二: 访问 8080 端口,查看 Web-UI 界面:
|
||||
|
||||
<div align="center"> <img src="../../pictures/storm-web-ui.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/storm-web-ui.png"/> </div>
|
||||
|
@ -25,7 +25,7 @@
|
||||
|
||||
这里搭建一个 3 节点的 Storm 集群:三台主机上均部署 `Supervisor` 和 `LogViewer` 服务。同时为了保证高可用,除了在 hadoop001 上部署主 `Nimbus` 服务外,还在 hadoop002 上部署备用的 `Nimbus` 服务。`Nimbus` 服务由 Zookeeper 集群进行协调管理,如果主 `Nimbus` 不可用,则备用 `Nimbus` 会成为新的主 `Nimbus`。
|
||||
|
||||
<div align="center"> <img src="../../pictures/storm-集群规划.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/storm-集群规划.png"/> </div>
|
||||
|
||||
## 二、前置条件
|
||||
|
||||
@ -150,18 +150,18 @@ nohup sh storm logviewer &
|
||||
|
||||
使用 `jps` 查看进程,三台服务器的进程应该分别如下:
|
||||
|
||||
<div align="center"> <img src="../../pictures/storm-集群-shell.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/storm-集群-shell.png"/> </div>
|
||||
|
||||
|
||||
<br/>
|
||||
|
||||
访问 hadoop001 或 hadoop002 的 `8080` 端口,界面如下。可以看到有一主一备 2 个 `Nimbus` 和 3 个 `Supervisor`,并且每个 `Supervisor` 有四个 `slots`,即四个可用的 `worker` 进程,此时代表集群已经搭建成功。
|
||||
|
||||
<div align="center"> <img src="../../pictures/storm-集群搭建1.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/storm-集群搭建1.png"/> </div>
|
||||
|
||||
|
||||
## 五、高可用验证
|
||||
|
||||
这里手动模拟主 `Nimbus` 异常的情况,在 hadoop001 上使用 `kill` 命令杀死 `Nimbus` 的线程,此时可以看到 hadoop001 上的 `Nimbus` 已经处于 `offline` 状态,而 hadoop002 上的 `Nimbus` 则成为新的 `Leader`。
|
||||
|
||||
<div align="center"> <img src="../../pictures/storm集群搭建2.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/storm集群搭建2.png"/> </div>
|
||||
|
@ -180,8 +180,8 @@ echo "3" > /usr/local/zookeeper-cluster/data/myid
|
||||
|
||||
启动后使用 `zkServer.sh status` 查看集群各个节点状态。如图所示:三个节点进程均启动成功,并且 hadoop002 为 leader 节点,hadoop001 和 hadoop003 为 follower 节点。
|
||||
|
||||
<div align="center"> <img src="../../pictures/zookeeper-hadoop001.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/zookeeper-hadoop001.png"/> </div>
|
||||
|
||||
<div align="center"> <img src="../../pictures/zookeeper-hadoop002.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/zookeeper-hadoop002.png"/> </div>
|
||||
|
||||
<div align="center"> <img src="../../pictures/zookeeper-hadoop003.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/zookeeper-hadoop003.png"/> </div>
|
||||
|
@ -20,7 +20,7 @@ Hadoop 高可用 (High Availability) 分为 HDFS 高可用和 YARN 高可用,
|
||||
|
||||
HDFS 高可用架构如下:
|
||||
|
||||
<div align="center"> <img src="../../pictures/HDFS-HA-Architecture-Edureka.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/HDFS-HA-Architecture-Edureka.png"/> </div>
|
||||
|
||||
> *图片引用自:https://www.edureka.co/blog/how-to-set-up-hadoop-cluster-with-hdfs-high-availability/*
|
||||
|
||||
@ -42,13 +42,13 @@ HDFS 高可用架构主要由以下组件所构成:
|
||||
|
||||
需要说明的是向 JournalNode 集群写入 EditLog 是遵循 “过半写入则成功” 的策略,所以你至少要有 3 个 JournalNode 节点,当然你也可以继续增加节点数量,但是应该保证节点总数是奇数。同时如果有 2N+1 台 JournalNode,那么根据过半写的原则,最多可以容忍有 N 台 JournalNode 节点挂掉。
|
||||
|
||||
<div align="center"> <img src="../../pictures/hadoop-QJM-同步机制.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hadoop-QJM-同步机制.png"/> </div>
|
||||
|
||||
### 1.3 NameNode 主备切换
|
||||
|
||||
NameNode 实现主备切换的流程下图所示:
|
||||
|
||||
<div align="center"> <img src="../../pictures/hadoop-namenode主备切换.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hadoop-namenode主备切换.png"/> </div>
|
||||
1. HealthMonitor 初始化完成之后会启动内部的线程来定时调用对应 NameNode 的 HAServiceProtocol RPC 接口的方法,对 NameNode 的健康状态进行检测。
|
||||
2. HealthMonitor 如果检测到 NameNode 的健康状态发生变化,会回调 ZKFailoverController 注册的相应方法进行处理。
|
||||
3. 如果 ZKFailoverController 判断需要进行主备切换,会首先使用 ActiveStandbyElector 来进行自动的主备选举。
|
||||
@ -63,14 +63,14 @@ YARN ResourceManager 的高可用与 HDFS NameNode 的高可用类似,但是 R
|
||||
|
||||
|
||||
|
||||
<div align="center"> <img src="../../pictures/hadoop-rm-ha-overview.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hadoop-rm-ha-overview.png"/> </div>
|
||||
|
||||
|
||||
## 二、集群规划
|
||||
|
||||
按照高可用的设计目标:需要保证至少有两个 NameNode (一主一备) 和 两个 ResourceManager (一主一备) ,同时为满足“过半写入则成功”的原则,需要至少要有 3 个 JournalNode 节点。这里使用三台主机进行搭建,集群规划如下:
|
||||
|
||||
<div align="center"> <img src="../../pictures/hadoop高可用集群规划.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hadoop高可用集群规划.png"/> </div>
|
||||
|
||||
|
||||
## 三、前置条件
|
||||
@ -448,33 +448,33 @@ HDFS 和 YARN 的端口号分别为 `50070` 和 `8080`,界面应该如下:
|
||||
|
||||
此时 hadoop001 上的 `NameNode` 处于可用状态:
|
||||
|
||||
<div align="center"> <img src="../../pictures/hadoop高可用集群1.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hadoop高可用集群1.png"/> </div>
|
||||
而 hadoop002 上的 `NameNode` 则处于备用状态:
|
||||
|
||||
<br/>
|
||||
|
||||
<div align="center"> <img src="../../pictures/hadoop高可用集群3.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hadoop高可用集群3.png"/> </div>
|
||||
<br/>
|
||||
|
||||
hadoop002 上的 `ResourceManager` 处于可用状态:
|
||||
|
||||
<br/>
|
||||
|
||||
<div align="center"> <img src="../../pictures/hadoop高可用集群4.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hadoop高可用集群4.png"/> </div>
|
||||
<br/>
|
||||
|
||||
hadoop003 上的 `ResourceManager` 则处于备用状态:
|
||||
|
||||
<br/>
|
||||
|
||||
<div align="center"> <img src="../../pictures/hadoop高可用集群5.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hadoop高可用集群5.png"/> </div>
|
||||
<br/>
|
||||
|
||||
同时界面上也有 `Journal Manager` 的相关信息:
|
||||
|
||||
<br/>
|
||||
|
||||
<div align="center"> <img src="../../pictures/hadoop高可用集群2.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/hadoop高可用集群2.png"/> </div>
|
||||
## 七、集群的二次启动
|
||||
|
||||
上面的集群初次启动涉及到一些必要初始化操作,所以过程略显繁琐。但是集群一旦搭建好后,想要再次启用它是比较方便的,步骤如下(首选需要确保 ZooKeeper 集群已经启动):
|
||||
|
@ -137,7 +137,7 @@ echo "3" > /usr/local/zookeeper-cluster/data/03/myid
|
||||
|
||||
使用 jps 查看进程,并且使用 `zkServer.sh status` 查看集群各个节点状态。如图三个节点进程均启动成功,并且两个节点为 follower 节点,一个节点为 leader 节点。
|
||||
|
||||
<div align="center"> <img src="../../pictures/zookeeper-cluster.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/zookeeper-cluster.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -229,7 +229,7 @@ bin/kafka-topics.sh --create --bootstrap-server hadoop001:9092 \
|
||||
bin/kafka-topics.sh --describe --bootstrap-server hadoop001:9092 --topic my-replicated-topic
|
||||
```
|
||||
|
||||
<div align="center"> <img src="../../pictures/kafka-cluster-shell.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/kafka-cluster-shell.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -38,7 +38,7 @@ ONBOOT=yes
|
||||
|
||||
我的主机配置:
|
||||
|
||||
<div align="center"> <img src="../../pictures/ipconfig.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/ipconfig.png"/> </div>
|
||||
|
||||
修改后完整配置如下:
|
||||
|
||||
@ -81,13 +81,13 @@ ONBOOT=yes
|
||||
|
||||
这里我是用的虚拟机是 virtualBox,开启多网卡配置方式如下:
|
||||
|
||||
<div align="center"> <img src="../../pictures/virtualbox-multi-network.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/virtualbox-multi-network.png"/> </div>
|
||||
|
||||
### 2. 查看网卡名称
|
||||
|
||||
使用 `ifconfig`,查看第二块网卡名称,这里我的名称为 `enp0s8`:
|
||||
|
||||
<div align="center"> <img src="../../pictures/mutli-net-ip.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/mutli-net-ip.png"/> </div>
|
||||
|
||||
### 3. 配置第二块网卡
|
||||
|
||||
@ -115,4 +115,4 @@ DEVICE=enp0s8
|
||||
|
||||
使用时只需要根据所处的网络环境,勾选对应的网卡即可,不使用的网卡尽量不要勾选启动。
|
||||
|
||||
<div align="center"> <img src="../../pictures/virtualbox启用网络.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/virtualbox启用网络.png"/> </div>
|
||||
|
@ -18,7 +18,7 @@
|
||||
|
||||
## 一、大数据处理流程
|
||||
|
||||
<div align="center"> <img src="../pictures/大数据处理简化流程.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/大数据处理简化流程.png"/> </div>
|
||||
上图是一个简化的大数据处理流程图,大数据处理的主要流程包括数据收集、数据存储、数据处理、数据应用等主要环节。下面我们逐一对各个环节所需要的技术栈进行讲解:
|
||||
|
||||
### 1.1 数据收集
|
||||
@ -126,7 +126,7 @@ Scala 是一门综合了面向对象和函数式编程概念的静态类型的
|
||||
|
||||
上面列出的都是比较主流的大数据框架,社区都很活跃,学习资源也比较丰富。建议从 Hadoop 开始入门学习,因为它是整个大数据生态圈的基石,其它框架都直接或者间接依赖于 Hadoop 。接着就可以学习计算框架,Spark 和 Flink 都是比较主流的混合处理框架,Spark 出现得较早,所以其应用也比较广泛。 Flink 是当下最火热的新一代的混合处理框架,其凭借众多优异的特性得到了众多公司的青睐。两者可以按照你个人喜好或者实际工作需要进行学习。
|
||||
|
||||
<div align="center"> <img src="../pictures/HADOOP-ECOSYSTEM-Edureka.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/HADOOP-ECOSYSTEM-Edureka.png"/> </div>
|
||||
|
||||
> *图片引用自* :*https://www.edureka.co/blog/hadoop-ecosystem*
|
||||
|
||||
|
@ -112,7 +112,7 @@ assembly.xml 文件内容如下:
|
||||
|
||||
打包后会同时生成两个 JAR 包,其中后缀为 `jar-with-dependencies` 是含有第三方依赖的 JAR 包,后缀是由 `assembly.xml` 中 `<id>` 标签指定的,可以自定义修改。
|
||||
|
||||
<div align="center"> <img src="../pictures/storm-jar.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/storm-jar.png"/> </div>
|
||||
|
||||
|
||||
|
||||
@ -194,7 +194,7 @@ assembly.xml 文件内容如下:
|
||||
|
||||
打包后会生成两个 JAR 包,提交到服务器集群时使用非 original 开头的 JAR。
|
||||
|
||||
<div align="center"> <img src="../pictures/storm-jar2.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/storm-jar2.png"/> </div>
|
||||
|
||||
|
||||
|
||||
|
@ -1,2 +1,2 @@
|
||||
<div align="center"> <img src="../pictures/大数据技术栈思维导图.png"/> </div>
|
||||
<div align="center"> <img src="https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/大数据技术栈思维导图.png"/> </div>
|
||||
|
||||
|
Loading…
x
Reference in New Issue
Block a user