add

2019-04-06 20:47:39 +08:00
parent 7f7d45ebd0
commit 1059fd6a58
32 changed files with 680 additions and 20 deletions
--- a/README.md
+++ b/README.md
@@ -18,7 +18,6 @@
       <th><img width="50px" src="https://github.com/heibaiying/BigData-Notes/blob/master/pictures/flink.png"></th>
       <th><img width="50px" src="https://github.com/heibaiying/BigData-Notes/blob/master/pictures/storm.png"></th>
      <th><img width="50px" src="https://github.com/heibaiying/BigData-Notes/blob/master/pictures/flume.png"></th>
      <th><img width="50px" src="https://github.com/heibaiying/BigData-Notes/blob/master/pictures/oozie.jpg"></th>
      <th><img width="50px" src="https://github.com/heibaiying/BigData-Notes/blob/master/pictures/sqoop.png"></th>
      <th><img width="50px" src="https://github.com/heibaiying/BigData-Notes/blob/master/pictures/azkaban.png"></th>
      <th><img width="50px" src="https://github.com/heibaiying/BigData-Notes/blob/master/pictures/hbase.png"></th>
@@ -33,19 +32,17 @@
      <td align="center"><a href="#四flink">Flink</a></td>
      <td align="center"><a href="#五storm">Storm</a></td>
      <td align="center"><a href="#六flume">Flume</a></td>
-      <td align="center"><a href="#七oozie">Oozie</a></td>
+      <td align="center"><a href="#七sqoop">Sqoop</a></td>
-      <td align="center"><a href="#八sqoop">Sqoop</a></td>
+      <td align="center"><a href="#八azkaban">Azkaban</a></td>
-      <td align="center"><a href="#九azkaban">Azkaban</a></td>
+      <td align="center"><a href="#九hbase">HBase</a></td>
-      <td align="center"><a href="#十hbase">HBase</a></td>
+      <td align="center"><a href="#十kafka">Kafka</a></td>
-      <td align="center"><a href="#十一kafka">Kafka</a></td>
+      <td align="center"><a href="#十一zookeeper">Zookeeper</a></td>
-      <td align="center"><a href="#十二zookeeper">Zookeeper</a></td>
+      <td align="center"><a href="#十二scala">Scala</a></td>
      <td align="center"><a href="#十三scala">Scala</a></td>
    </tr>
  </table>
 > 本仓库涉及的所有软件的详细搭建步骤整理至：[Linux下大数据常用软件安装指南](https://github.com/heibaiying/BigData-Notes/blob/master/notes/Linux中大数据常用软件安装指南.md)
@@ -55,27 +52,52 @@
 1. [分布式文件存储系统——HDFS](https://github.com/heibaiying/BigData-Notes/blob/master/notes/Hadoop-HDFS.md)
 2. [分布式计算框架——MapReduce](https://github.com/heibaiying/BigData-Notes/blob/master/notes/Hadoop-MapReduce.md)
 3. [集群资源管理器——YARN](https://github.com/heibaiying/BigData-Notes/blob/master/notes/Hadoop-YARN.md)
 4. Hadoop单机伪集群环境搭建
 ## 二、Hive
 1. [数据仓库Hive](https://github.com/heibaiying/BigData-Notes/blob/master/notes/Hive.md)
 2. Linux环境下Hive的安装部署
 ## 三、Spark
-1. RDD详解
+1. Spark简介
-2. Spark Transformation 和 Action
+2. Spark单机版本环境搭建
 3. RDD详解
 4. Spark Transformation 和 Action
 ## 四、Flink
 TODO
 ## 五、Storm
-1. [Storm核心概念详解](https://github.com/heibaiying/BigData-Notes/blob/master/notes/Storm核心概念详解.md)
+1. Strom简介
 2. [Storm核心概念详解](https://github.com/heibaiying/BigData-Notes/blob/master/notes/Storm核心概念详解.md)
 3. Storm单机版本环境搭建
 4. Storm编程模型
 ## 六、Flume
-## 七、Oozie
+
-## 八、Sqoop
+1. Flume简介
-## 九、Azkaban
+2. Linux环境下Flume的安装部署
-## 十、HBase
+3. Flume的使用
 4. Flume整合Kafka
 ## 七、Sqoop
 1. Sqoop简介
 2. Sqoop的基本使用
 ## 八、Azkaban
 1. Azkaban项目简介
 2. Azkaban3.x编译及部署
 3. Azkaban Flow 1.0 的使用
 4. Azkaban Flow 2.0 的使用
 ## 九、HBase
 1. [HBase基本环境搭建（Standalone /pseudo-distributed mode）](https://github.com/heibaiying/BigData-Notes/blob/master/notes/installation/Hbase%E5%9F%BA%E6%9C%AC%E7%8E%AF%E5%A2%83%E6%90%AD%E5%BB%BA.md)
 2. [HBase系统架构及数据结构](https://github.com/heibaiying/BigData-Notes/blob/master/notes/Hbase%E7%B3%BB%E7%BB%9F%E6%9E%B6%E6%9E%84%E5%8F%8A%E6%95%B0%E6%8D%AE%E7%BB%93%E6%9E%84.md)
@@ -85,6 +107,19 @@
 6. HBase 备份与恢复
 7. [HBase的SQL中间层——Phoenix](https://github.com/heibaiying/BigData-Notes/blob/master/notes/Hbase%E7%9A%84SQL%E5%B1%82%E2%80%94%E2%80%94Phoenix.md)
 8. [Spring/Spring Boot 整合 Mybatis + Phoenix](https://github.com/heibaiying/BigData-Notes/blob/master/notes/Spring%2BMybtais%2BPhoenix%E6%95%B4%E5%90%88.md)
-## 十一、Kafka
+## 十、Kafka
-## 十二、Zookeeper
+
-## 十三、Scala
+1. Kafka 简介及消息处理过程分析
 2. 基于Zookeeper搭建Kafka高可用集群
 3. Kafka 副本机制以及选举原理剖析
 ## 十一、Zookeeper
 1. Zookeeper 简介及原理介绍
 2. Zookeeper 集群搭建Zookeeper 
 3. 分布式锁实现方案Zookeeper  
 4. 集群升级、迁移深入分析 Zookeeper  
 5. Zab协议及选举机制
 ## 十二、Scala
--- a/notes/Azkaban
+++ b/notes/Azkaban
@@ -0,0 +1,215 @@
 # Azkaban Flow 1.0 的使用
 ## 一、简介
 Azkaban提供了人性化的WEB UI界面，使得我们可以通过界面上传配置文件来完成任务的调度。Azkaban有两个重要的概念：
 - **Job**： 你需要执行的调度任务；
 - **Flow**：一个获取多个Job及它们之间的依赖关系所组成的图表叫做Flow。
 目前 Azkaban 3.x 同时支持 Flow 1.0 和 Flow 2.0，本文主要讲解 Flow 1.0的使用，下一篇文章会讲解Flow 2.0的使用。
 ## 二、基本任务调度
 ### 2.1 新建项目
 在Azkaban主界面可以创建对应的项目
 ![azkaban-create-project](D:\BigData-Notes\pictures\azkaban-create-project.png)
 ### 2.2 任务配置
 新建任务配置文件`Hello-Azkaban.job`，注意后缀名为`job`,内容如下,这里我们的任务很简单，就是输出一句`'Hello Azkaban!'`
 ```shell
 #command.job
 type=command
 command=echo 'Hello Azkaban!'
 ```
 ### 2.3 打包上传
 将`Hello-Azkaban.job `打包为`zip`压缩文件
 ![azkaban-zip](D:\BigData-Notes\pictures\azkaban-zip.png)
 通过Web UI 界面上传
 ![azkaban-upload](D:\BigData-Notes\pictures\azkaban-upload.png)
 上传成功后可以看到对应的Flows
 ![azkaban-flows](D:\BigData-Notes\pictures\azkaban-flows.png)
 ### 2.4 执行任务
 点击页面上的`Execute Flow`执行任务
 ![azkaban-execute](D:\BigData-Notes\pictures\azkaban-execute.png)
 ### 2.5 执行结果
 点击`detail`可以查看到任务的执行日志
 ![azkaban-successed](D:\BigData-Notes\pictures\azkaban-successed.png)
 ![azkaban-log](D:\BigData-Notes\pictures\azkaban-log.png)
 ## 三、多任务调度
 ### 3.1 依赖配置
 这里假设我们有五个任务（TaskA——TaskE）,D任务需要在A，B，C任务执行完成后才能执行，而E任务则需要在D任务执行完成后才能执行。则需要使用`dependencies`属性定义其依赖关系，各任务配置如下：
 **Task-A.job**   :
 ```shell
 type=command
 command=echo 'Task A'
 ```
 **Task-B.job**   :
 ```shell
 type=command
 command=echo 'Task B'
 ```
 **Task-C.job**   :
 ```shell
 type=command
 command=echo 'Task C'
 ```
 **Task-D.job**   : 
 ```shell
 type=command
 command=echo 'Task D'
 dependencies=Task-A,Task-B,Task-C
 ```
 **Task-E.job**   :
 ```shell
 type=command
 command=echo 'Task E'
 dependencies=Task-D
 ```
 ### 3.2 压缩上传
 压缩后进行上传，这里需要注意的是一个Project只能接收一个压缩包，这里我还沿用上面的Project，默认后面的压缩包会覆盖前面的压缩包
 ![azkaban-task-abcde-zip](D:\BigData-Notes\pictures\azkaban-task-abcde-zip.png)
 ### 3.3 依赖关系
 多个任务存在依赖时，默认采用最后一个任务的文件名作为Flow的名称，其依赖关系可以在页面上得以直观的体现
 ![azkaban-dependencies](D:\BigData-Notes\pictures\azkaban-dependencies.png)
 ### 3.4 执行结果
 ![azkaban-task-abcde](D:\BigData-Notes\pictures\azkaban-task-abcde.png)
 这里说明一下在Flow1.0的情况下，是无法通过一个job文件完成多个任务的配置的，但是Flow 2.0 就很好的解决了这个问题。
 ## 四、调度HDFS作业
 步骤与上面的步骤一致，这里已查看HDFS文件列表为例，建议涉及到路径的地方全部采用完整的路径名，配置文件如下：
 ```shell
 type=command
 command=/usr/app/hadoop-2.6.0-cdh5.15.2/bin/hadoop fs -ls /
 ```
 执行结果：
 ![azkaban-hdfs](D:\BigData-Notes\pictures\azkaban-hdfs.png)
 ## 五、调度MR作业
 MR作业配置：
 ```shell
 type=command
 command=/usr/app/hadoop-2.6.0-cdh5.15.2/bin/hadoop jar /usr/app/hadoop-2.6.0-cdh5.15.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.15.2.jar pi 3 3
 ```
 执行结果：
 ![azkaban-mr](D:\BigData-Notes\pictures\azkaban-mr.png)
 ## 六、调度Hive作业
 作业配置：
 ```shell
 type=command
 command=/usr/app/hive-1.1.0-cdh5.15.2/bin/hive -f 'test.sql'
 ```
 其中`test.sql`内容如下，创建一张雇员表，然后查看其结构：
 ```sql
 CREATE DATABASE IF NOT EXISTS hive;
 use hive;
 drop table if exists emp;
 CREATE TABLE emp(
 empno int,
 ename string,
 job string,
 mgr int,
 hiredate string,
 sal double,
 comm double,
 deptno int
 ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
 -- 查看emp表的信息
 desc emp;
 ```
 打包的时候将`job`文件与`sql`文件一并进行打包
 ![azkaban-hive](D:\BigData-Notes\pictures\azkaban-hive.png)
 执行结果如下：
 ![azkaban-hive-result](D:\BigData-Notes\pictures\azkaban-hive-result.png)
 ## 七、在线修改作业配置
 在测试的时候，我们可能要频繁修改配置，如果每次修改都要重新打包上传这是比较麻烦的，所幸的是Azkaban是支持配置的在线修改的，点击需要修改的Flow，就可以进入详情页面：
 ![azkaban-project-edit](D:\BigData-Notes\pictures\azkaban-project-edit.png)
 在详情页面点击`Eidt`按钮可以进入编辑页面
 ![azkaban-edit](D:\BigData-Notes\pictures\azkaban-edit.png)
 在编辑页面可以新增配置或者修改配置
 ## ![azkaban-click-edit](D:\BigData-Notes\pictures\azkaban-click-edit.png)八、可能出现的问题
 如果出现以下异常,多半是因为执行主机内存不足引起，azkaban要求执行主机可用内存必须大于3G才能满足执行任务的条件
 ```shell
 Cannot request memory (Xms 0 kb, Xmx 0 kb) from system for job
 ```
 ![azkaban-memory](D:\BigData-Notes\pictures\azkaban-memory.png)
 如果你的执行主机没办法增大内存，则可以通过配置`commonprivate.properties` 文件关闭内存检查，
 `commonprivate.properties` 文件在安装目录的`/plugins/jobtypes`下。
 关闭内存检查的配置如下：
 ```shell
 memCheck.enabled=false
 ```
--- a/notes/Azkaban
+++ b/notes/Azkaban
@@ -0,0 +1,291 @@
 # Azkaban Flow 2.0的使用
 ## 一、Flow 2.0 简介
 ### 1.1 Flow 2.0 的产生
 Azkaban 目前同时支持Flow 1.0和Flow2.0,但是官方文档上更推荐使用2.0，因为Flow 1.0 会在将来的版本被移除。
 >This section covers how to create your Azkaban flows using Azkaban Flow 2.0.Flow 1.0 will be deprecated in the future.
 Flow 2.0设计的主要思想是提供1.0版本没有的流级定义。用户可以将属于给定流的所有.job / .properties文件合并到单个流定义文件中，而不是创建多个.job / .properties文件。配置文件以YAML格式定义，每个项目zip将包含多个流YAML文件和一个项目YAML文件。同时可以在YAML文件中的流内定义流，称为为嵌入流或子流。
 ### 1.2 基本结构
 项目zip将包含多个流YAML文件，一个项目YAML文件以及可选库和源代码。Flow YAML文件的基本结构如下：
 + 每个Flow都在单个YAML文件中定义
 + 流文件以流名称命名。如：my-flow-name.flow
 + 包含DAG中的所有节点
 +  每个节点可以是作业或流程
 +  每个节点 可以拥有 name, type, config, dependsOn and nodes sections等属性
 +  通过列出dependsOn列表中的父节点来指定节点依赖性
 + 包含与流相关的其他配置
 +   当前.properties文件中流的所有常见属性都将迁移到每个流YAML文件中的config部分
 官方提供了一个比较完善的配置样例，如下：
 ```yaml
 config:
  user.to.proxy: azktest
  param.hadoopOutData: /tmp/wordcounthadoopout
  param.inData: /tmp/wordcountpigin
  param.outData: /tmp/wordcountpigout
 # This section defines the list of jobs
 # A node can be a job or a flow
 # In this example, all nodes are jobs
 nodes:
 # Job definition
 # The job definition is like a YAMLified version of properties file
 # with one major difference. All custom properties are now clubbed together
 # in a config section in the definition.
 # The first line describes the name of the job
 - name: AZTest
   type: noop
   # The dependsOn section contains the list of parent nodes the current
   # node depends on
   dependsOn:
     - hadoopWC1
     - NoOpTest1
     - hive2
     - java1
     - jobCommand2
 - name: pigWordCount1
   type: pig
   # The config section contains custom arguments or parameters which are
   # required by the job
   config:
     pig.script: src/main/pig/wordCountText.pig
 - name: hadoopWC1
   type: hadoopJava
   dependsOn:
     - pigWordCount1
   config:
     classpath: ./*
     force.output.overwrite: true
     input.path: ${param.inData}
     job.class: com.linkedin.wordcount.WordCount
     main.args: ${param.inData} ${param.hadoopOutData}
     output.path: ${param.hadoopOutData}
 - name: hive1
   type: hive
   config:
     hive.script: src/main/hive/showdb.q
 - name: NoOpTest1
   type: noop
 - name: hive2
   type: hive
   dependsOn:
     - hive1
   config:
     hive.script: src/main/hive/showTables.sql
 - name: java1
   type: javaprocess
   config:
     Xms: 96M
     java.class: com.linkedin.foo.HelloJavaProcessJob
 - name: jobCommand1
   type: command
   config:
     command: echo "hello world from job_command_1"
 - name: jobCommand2
   type: command
   dependsOn:
     - jobCommand1
   config:
     command: echo "hello world from job_command_2"
 ```
 ## 二、YAML语法
 想要进行Flow流的配置，首先需要了解YAML ，YAML 是一种简洁的非标记语言，有着严格的格式要求的，如果你的格式配置失败，上传到Azkaban的时候就会抛出解析异常。
 ### 2.1 基本规则
 1. 大小写敏感 
 2. 使用缩进表示层级关系 
 3. 缩进长度没有限制，只要元素对齐就表示这些元素属于一个层级。 
 4. 使用#表示注释 
 5. 字符串默认不用加单双引号，但单引号和双引号都可以使用，双引号不会对特殊字符转义。
 6. YAML中提供了多种常量结构，包括：整数，浮点数，字符串，NULL，日期，布尔，时间。
 ### 2.2 对象的写法
 ```yaml
 # value 与 ： 符号之间必须要有一个空格
 key: value
 ```
 ### 2.3 map的写法
 ```yaml
 # 写法一 同一缩进的所有键值对属于一个map
 key: 
    key1: value1
    key2: value2
 # 写法二
 {key1: value1, key2: value2}
 ```
 ### 2.3 数组的写法
 ```yaml
 # 写法一 使用一个短横线加一个空格代表一个数组项
 - a
 - b
 - c
 # 写法二
 [a,b,c]
 ```
 ### 2.5 单双引号
 单引号和双引号都可以使用，双引号不会对特殊字符转义。
 ```yaml
 s1: '内容\n字符串'
 s2: "内容\n字符串"
 转换后：
 { s1: '内容\\n字符串', s2: '内容\n字符串' }
 ```
 ### 2.6 特殊符号
 `---`  YAML可以在同一个文件中，使用`---`表示一个文档的开始。
 ### 2.7 配置引用
 在Azkaban中可以使用`${}`引用定义的配置，同时也建议将公共的参数抽取到config中，并使用`${}`进行引用。
 ## 三、简单任务调度
 ### 3.1 任务配置
 新建`flow`配置文件
 ```yaml
 nodes:
  - name: jobA
    type: command
    config:
      command: echo "Hello Azkaban Flow 2.0."
 ```
 在当前的版本中，由于Azkaban是同时支持Flow 1.0 和 Flow 2.0的，如果你想让Azkaban知道你是希望以2.0方式运行，则需要新建一个`project`文件，指明是使用的Flow 2.0
 ```shell
 azkaban-flow-version: 2.0
 ```
 ### 3.2 打包上传
 ![azkaban-simple](D:\BigData-Notes\pictures\azkaban-simple.png)
 ### 3.3 执行结果
 由于在1.0 版本中已经介绍过web ui的使用，这里就不再赘述，对于1.0和2.0版本，只有配置的方式是不同的，其他上传执行的操作方式都是相同的。执行结果如下：
 ![azkaban-simle-result](D:\BigData-Notes\pictures\azkaban-simle-result.png)
 ## 四、多任务调度
 和1.0给的案例一样，这里假设我们有五个任务（jobA——jobE）,D任务需要在A，B，C任务执行完成后才能执行，而E任务则需要在D任务执行完成后才能执行。`Flow`配置如下。可以看到在1.0中我们需要分别定义五个配置文件，而在2.0中我们只需要一个配置文件即可完成配置。
 ```yaml
 nodes:
  - name: jobE
    type: command
    config:
      command: echo "This is job E"
    # jobE depends on jobD
    dependsOn: 
      - jobD
  - name: jobD
    type: command
    config:
      command: echo "This is job D"
    # jobD depends on jobA、jobB、jobC
    dependsOn:
      - jobA
      - jobB
      - jobC
  - name: jobA
    type: command
    config:
      command: echo "This is job A"
  - name: jobB
    type: command
    config:
      command: echo "This is job B"
  - name: jobC
    type: command
    config:
      command: echo "This is job C"
 ```
 ## 五、内嵌流
 Flow2.0 支持在一个Flow中定义另一个Flow，称为内嵌流或者子流。这里给出一个内嵌流的示例，其`Flow`配置如下：
 ```yaml
 nodes:
  - name: jobC
    type: command
    config:
      command: echo "This is job C"
    dependsOn:
      - embedded_flow
  - name: embedded_flow
    type: flow
    config:
      prop: value
    nodes:
      - name: jobB
        type: command
        config:
          command: echo "This is job B"
        dependsOn:
          - jobA
      - name: jobA
        type: command
        config:
          command: echo "This is job A"
 ```
 内嵌流的DAG图如下：
 ![azkaban-embeded-flow](D:\BigData-Notes\pictures\azkaban-embeded-flow.png)
 执行情况如下：
 ![azkaban-embeded-success](D:\BigData-Notes\pictures\azkaban-embeded-success.png)
 ## 参考资料
 1. [Azkaban Flow 2.0 Design](https://github.com/azkaban/azkaban/wiki/Azkaban-Flow-2.0-Design)
 2. [Getting started with Azkaban Flow 2.0](https://github.com/azkaban/azkaban/wiki/Getting-started-with-Azkaban-Flow-2.0)
--- a/notes/Azkaban的使用.md
+++ b/notes/Azkaban的使用.md
@@ -0,0 +1 @@
 ## 
--- a/notes/installation/Linux下Flume的安装.md
+++ b/notes/installation/Linux下Flume的安装.md
@@ -47,7 +47,7 @@ export PATH=$FLUME_HOME/bin:$PATH
 # cp flume-env.sh.template flume-env.sh
 ```
-修改安装目录下的`flume-env.sh`,指定JDK的安装路径：
+修改`flume-env.sh`,指定JDK的安装路径：
 ```shell
 # Enviroment variables can be set here.
--- a/notes/installation/Linux环境下Hive的安装部署.md
+++ b/notes/installation/Linux环境下Hive的安装部署.md
@@ -0,0 +1,118 @@
 # Linux环境下Hive的安装
 > Hive 版本 ： hive-1.1.0-cdh5.15.2.tar.gz
 >
 > 系统环境：Centos 7.6
 ### 1.1 下载并解压
 下载所需版本的Hive，这里我下载的是`cdh5.15.2`版本的Hive。下载地址为：http://archive.cloudera.com/cdh5/cdh/5/
 ```shell
 # 下载后进行解压
 tar -zxvf hive-1.1.0-cdh5.15.2.tar.gz
 ```
 ### 1.2 配置环境变量
 ```shell
 # vim /etc/profile
 ```
 添加环境变量：
 ```shell
 export HIVE_HOME=/usr/app/hive-1.1.0-cdh5.15.2
 export PATH=$HIVE_HOME/bin:$PATH
 ```
 使得配置的环境变量立即生效：
 ```shell
 # source /etc/profile
 ```
 ### 1.3 修改配置
 **1. hive-env.sh**
 进入安装目录下的`conf/`目录，拷贝Hive的环境配置模板`flume-env.sh.template`
 ```shell
 cp hive-env.sh.template hive-env.sh
 ```
 修改`hive-env.sh`,指定Hadoop的安装路径：
 ```shell
 HADOOP_HOME=/usr/app/hadoop-2.6.0-cdh5.15.2
 ```
 **2. hive-site.xml**
 新建hive-site.xml 文件，内容如下，主要是配置存放元数据的MySQL数据库的地址、驱动、用户名和密码等信息：
 ```xml
 <?xml version="1.0"?>
 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
 <configuration>
  <property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://hadoop001:3306/hadoop_hive?createDatabaseIfNotExist=true</value>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.jdbc.Driver</value>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>root</value>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionPassword</name>
    <value>root</value>
  </property>
 </configuration>
 ```
 ### 1.4 拷贝数据库驱动
 将MySQL驱动拷贝到Hive安装目录的`lib`目录下, MySQL驱动的下载地址为https://dev.mysql.com/downloads/connector/j/  , 在本仓库的resources目录下我也上传了一份，有需要的可以自行下载。
 ![hive-mysql](D:\BigData-Notes\pictures\hive-mysql.png)
 ### 1.5 初始化元数据库
 + 当使用的 hive 是1.x版本时，可以不进行初始化操作，Hive会在第一次启动的时候会自动进行初始化，但不会生成所有的元数据信息表，只会初始化必要的一部分，在之后的使用中用到其余表时会自动创建；
 + 当使用的 hive 是2.x版本时，必须手动初始化元数据库。初始化命令：
  ```shell
  # schematool 命令在安装目录的bin目录下，由于上面已经配置过环境变量，在任意位置执行即可
  schematool -dbType mysql -initSchema
  ```
 本用例使用的CDH版本是`hive-1.1.0-cdh5.15.2.tar.gz`,对应`Hive 1.1.0` 版本，可以跳过这一步。
 ### 1.6 启动
 由于已经将Hive的bin目录配置到环境变量，直接使用以下命令启动，成功进入交互式命令行后执行`show databases`命令，无异常则代表搭建成功。
 ```shell
 # Hive
 ```
 ![hive-install](D:\BigData-Notes\pictures\hive-install-2.png)
 在Mysql中也能看到Hive创建的库和存放元数据信息的表
 ![hive-mysql-tables](D:\BigData-Notes\pictures\hive-mysql-tables.png)
--- a/pictures/azkaban-click-edit.png
+++ b/pictures/azkaban-click-edit.png
--- a/pictures/azkaban-create-project.png
+++ b/pictures/azkaban-create-project.png
--- a/pictures/azkaban-dependencies.png
+++ b/pictures/azkaban-dependencies.png
--- a/pictures/azkaban-edit.png
+++ b/pictures/azkaban-edit.png
--- a/pictures/azkaban-embeded-flow.png
+++ b/pictures/azkaban-embeded-flow.png
--- a/pictures/azkaban-embeded-success.png
+++ b/pictures/azkaban-embeded-success.png
--- a/pictures/azkaban-execute.png
+++ b/pictures/azkaban-execute.png
--- a/pictures/azkaban-flows.png
+++ b/pictures/azkaban-flows.png
--- a/pictures/azkaban-hdfs.png
+++ b/pictures/azkaban-hdfs.png
--- a/pictures/azkaban-hive-result.png
+++ b/pictures/azkaban-hive-result.png
--- a/pictures/azkaban-hive.png
+++ b/pictures/azkaban-hive.png
--- a/pictures/azkaban-log.png
+++ b/pictures/azkaban-log.png
--- a/pictures/azkaban-memory.png
+++ b/pictures/azkaban-memory.png
--- a/pictures/azkaban-mr.png
+++ b/pictures/azkaban-mr.png
--- a/pictures/azkaban-project-edit.png
+++ b/pictures/azkaban-project-edit.png
--- a/pictures/azkaban-setting.png
+++ b/pictures/azkaban-setting.png
--- a/pictures/azkaban-simle-result.png
+++ b/pictures/azkaban-simle-result.png
--- a/pictures/azkaban-simple.png
+++ b/pictures/azkaban-simple.png
--- a/pictures/azkaban-successed.png
+++ b/pictures/azkaban-successed.png
--- a/pictures/azkaban-task-abcde-zip.png
+++ b/pictures/azkaban-task-abcde-zip.png
--- a/pictures/azkaban-task-abcde.png
+++ b/pictures/azkaban-task-abcde.png
--- a/pictures/azkaban-upload.png
+++ b/pictures/azkaban-upload.png
--- a/pictures/azkaban-zip.png
+++ b/pictures/azkaban-zip.png
--- a/pictures/hive-install-2.png
+++ b/pictures/hive-install-2.png
--- a/pictures/hive-mysql-tables.png
+++ b/pictures/hive-mysql-tables.png
--- a/pictures/hive-mysql.png
+++ b/pictures/hive-mysql.png