优化阅读格式

2019-07-31 17:18:07 +08:00
parent ceb868fe13
commit ca7c99802b
91 changed files with 4059 additions and 4058 deletions
--- a/notes/Hive常用DDL操作.md
+++ b/notes/Hive常用DDL操作.md
@@ -51,9 +51,9 @@ USE database_name;
 语法：

 ```sql
-CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name   --DATABASE|SCHEMA是等价的
+CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name   --DATABASE|SCHEMA 是等价的
  [COMMENT database_comment] --数据库注释
-  [LOCATION hdfs_path] --存储在HDFS上的位置
+  [LOCATION hdfs_path] --存储在 HDFS 上的位置
  [WITH DBPROPERTIES (property_name=property_value, ...)]; --指定额外属性
 ```

@@ -91,7 +91,7 @@ DESC DATABASE  EXTENDED hive_test;
 DROP (DATABASE|SCHEMA) [IF EXISTS] database_name [RESTRICT|CASCADE];
 ```

-+ 默认行为是RESTRICT，如果数据库中存在表则删除失败。要想删除库及其中的表，可以使用CASCADE级联删除。
+ 默认行为是 RESTRICT，如果数据库中存在表则删除失败。要想删除库及其中的表，可以使用 CASCADE 级联删除。

 示例：

@@ -159,7 +159,7 @@ CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name     --
    LOCATION '/hive/emp_external';
 ```

-使用 `desc format  emp_external`命令可以查看表的详细信息如下：
+使用 `desc format  emp_external` 命令可以查看表的详细信息如下：

 <div align="center"> <img width='700px' src="https://github.com/heibaiying/BigData-Notes/blob/master/pictures/hive-external-table.png"/> </div>

@@ -192,14 +192,14 @@ CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name     --
    sal DECIMAL(7,2),
    comm DECIMAL(7,2),
    deptno INT)
-    CLUSTERED BY(empno) SORTED BY(empno ASC) INTO 4 BUCKETS  --按照员工编号散列到四个bucket中
+    CLUSTERED BY(empno) SORTED BY(empno ASC) INTO 4 BUCKETS  --按照员工编号散列到四个 bucket 中
    ROW FORMAT DELIMITED FIELDS TERMINATED BY "\t"
    LOCATION '/hive/emp_bucket';
 ```

 ### 2.6 倾斜表

-通过指定一个或者多个列经常出现的值（严重偏斜），Hive会自动将涉及到这些值的数据拆分为单独的文件。在查询时，如果涉及到倾斜值，它就直接从独立文件中获取数据，而不是扫描所有文件，这使得性能得到提升。
+通过指定一个或者多个列经常出现的值（严重偏斜），Hive 会自动将涉及到这些值的数据拆分为单独的文件。在查询时，如果涉及到倾斜值，它就直接从独立文件中获取数据，而不是扫描所有文件，这使得性能得到提升。

 ```sql
  CREATE EXTERNAL TABLE emp_skewed(
@@ -211,14 +211,14 @@ CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name     --
    sal DECIMAL(7,2),
    comm DECIMAL(7,2)
    )
-    SKEWED BY (empno) ON (66,88,100)  --指定empno的倾斜值66,88,100
+    SKEWED BY (empno) ON (66,88,100)  --指定 empno 的倾斜值 66,88,100
    ROW FORMAT DELIMITED FIELDS TERMINATED BY "\t"
    LOCATION '/hive/emp_skewed';   
 ```

 ### 2.7 临时表

-临时表仅对当前session可见，临时表的数据将存储在用户的暂存目录中，并在会话结束后删除。如果临时表与永久表表名相同，则对该表名的任何引用都将解析为临时表，而不是永久表。临时表还具有以下两个限制：
+临时表仅对当前 session 可见，临时表的数据将存储在用户的暂存目录中，并在会话结束后删除。如果临时表与永久表表名相同，则对该表名的任何引用都将解析为临时表，而不是永久表。临时表还具有以下两个限制：

 + 不支持分区列；
 + 不支持创建索引。
@@ -264,14 +264,14 @@ CREATE TEMPORARY EXTERNAL TABLE  IF NOT EXISTS  emp_co  LIKE emp

 ### 2.10 加载数据到表

-加载数据到表中属于DML操作，这里为了方便大家测试，先简单介绍一下加载本地数据到表中：
+加载数据到表中属于 DML 操作，这里为了方便大家测试，先简单介绍一下加载本地数据到表中：

 ```sql
-- 加载数据到emp表中
+-- 加载数据到 emp 表中
 load data local inpath "/usr/file/emp.txt" into table emp;
 ```

-其中emp.txt的内容如下，你可以直接复制使用，也可以到本仓库的[resources](https://github.com/heibaiying/BigData-Notes/tree/master/resources)目录下载：
+其中 emp.txt 的内容如下，你可以直接复制使用，也可以到本仓库的[resources](https://github.com/heibaiying/BigData-Notes/tree/master/resources) 目录下载：

 ```txt
 7369	SMITH	CLERK	7902	1980-12-17 00:00:00	800.00		20
@@ -309,7 +309,7 @@ ALTER TABLE table_name RENAME TO new_table_name;
 示例：

 ```sql
-ALTER TABLE emp_temp RENAME TO new_emp; --把emp_temp表重命名为new_emp
+ALTER TABLE emp_temp RENAME TO new_emp; --把 emp_temp 表重命名为 new_emp
 ```


@@ -329,7 +329,7 @@ ALTER TABLE table_name [PARTITION partition_spec] CHANGE [COLUMN] col_old_name c
 -- 修改字段名和类型
 ALTER TABLE emp_temp CHANGE empno empno_new INT;
 
-- 修改字段sal的名称 并将其放置到empno字段后
+-- 修改字段 sal 的名称 并将其放置到 empno 字段后
 ALTER TABLE emp_temp CHANGE sal sal_new decimal(7,2)  AFTER ename;

 -- 为字段增加注释
@@ -359,7 +359,7 @@ ALTER TABLE emp_temp ADD COLUMNS (address STRING COMMENT 'home address');
 TRUNCATE TABLE table_name [PARTITION (partition_column = partition_col_value,  ...)];
 ```

-+ 目前只有内部表才能执行TRUNCATE操作，外部表执行时会抛出异常`Cannot truncate non-managed table XXXX`。
+ 目前只有内部表才能执行 TRUNCATE 操作，外部表执行时会抛出异常 `Cannot truncate non-managed table XXXX`。

 示例：

@@ -377,8 +377,8 @@ TRUNCATE TABLE emp_mgt_ptn PARTITION (deptno=20);
 DROP TABLE [IF EXISTS] table_name [PURGE]; 
 ```

-+ 内部表：不仅会删除表的元数据，同时会删除HDFS上的数据；
-+ 外部表：只会删除表的元数据，不会删除HDFS上的数据；
+ 内部表：不仅会删除表的元数据，同时会删除 HDFS 上的数据；
+ 外部表：只会删除表的元数据，不会删除 HDFS 上的数据；
 + 删除视图引用的表时，不会给出警告（但视图已经无效了，必须由用户删除或重新创建）。


@@ -413,7 +413,7 @@ SHOW (DATABASES|SCHEMAS) [LIKE 'identifier_with_wildcards'];
 SHOW DATABASES like 'hive*';
 ```

-LIKE子句允许使用正则表达式进行过滤，但是SHOW语句当中的LIKE子句只支持`*`（通配符）和`|`（条件或）两个符号。例如`employees`，`emp *`，`emp * | * ees`，所有这些都将匹配名为`employees`的数据库。
+LIKE 子句允许使用正则表达式进行过滤，但是 SHOW 语句当中的 LIKE 子句只支持 `*`（通配符）和 `|`（条件或）两个符号。例如 `employees`，`emp *`，`emp * | * ees`，所有这些都将匹配名为 `employees` 的数据库。

 **2. 查看表的列表**

@@ -428,7 +428,7 @@ SHOW TABLES IN default;
 **3. 查看视图列表**

 ```sql
-SHOW VIEWS [IN/FROM database_name] [LIKE 'pattern_with_wildcards'];   --仅支持Hive 2.2.0 +
+SHOW VIEWS [IN/FROM database_name] [LIKE 'pattern_with_wildcards'];   --仅支持 Hive 2.2.0 +
 ```

 **4. 查看表的分区列表**
@@ -447,4 +447,4 @@ SHOW CREATE TABLE ([db_name.]table_name|view_name);

 ## 参考资料

-[LanguageManual DDL](https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL)
+[LanguageManual DDL](https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL)