格式转换
This commit is contained in:
parent
b77fd1ccd1
commit
38ae95ae97
@ -82,7 +82,7 @@
|
|||||||
**Spark SQL :**
|
**Spark SQL :**
|
||||||
|
|
||||||
1. [DateFrames 和 DataSets ](https://github.com/heibaiying/BigData-Notes/blob/master/notes/SparkSQL_Dataset和DataFrame简介.md)
|
1. [DateFrames 和 DataSets ](https://github.com/heibaiying/BigData-Notes/blob/master/notes/SparkSQL_Dataset和DataFrame简介.md)
|
||||||
2. [Structured API的基本使用](https://github.com/heibaiying/BigData-Notes/blob/master/notes/Structured_API的基本使用.md)
|
2. [Structured API的基本使用](https://github.com/heibaiying/BigData-Notes/blob/master/notes/Spark_Structured_API的基本使用.md)
|
||||||
3. 外部数据源
|
3. 外部数据源
|
||||||
4. [Spark SQL常用聚合函数](https://github.com/heibaiying/BigData-Notes/blob/master/notes/SparkSQL常用聚合函数.md)
|
4. [Spark SQL常用聚合函数](https://github.com/heibaiying/BigData-Notes/blob/master/notes/SparkSQL常用聚合函数.md)
|
||||||
5. 联结操作
|
5. 联结操作
|
||||||
|
@ -1,5 +1,25 @@
|
|||||||
# 聚合函数Aggregations
|
# 聚合函数Aggregations
|
||||||
|
|
||||||
|
<nav>
|
||||||
|
<a href="#一简单聚合">一、简单聚合</a><br/>
|
||||||
|
<a href="#11-数据准备">1.1 数据准备</a><br/>
|
||||||
|
<a href="#12-count">1.2 count</a><br/>
|
||||||
|
<a href="#13-countDistinct">1.3 countDistinct</a><br/>
|
||||||
|
<a href="#14-approx_count_distinct">1.4 approx_count_distinct </a><br/>
|
||||||
|
<a href="#15-first--last">1.5 first & last </a><br/>
|
||||||
|
<a href="#16-min--max">1.6 min & max</a><br/>
|
||||||
|
<a href="#17-sum--sumDistinct">1.7 sum & sumDistinct</a><br/>
|
||||||
|
<a href="#18-avg">1.8 avg</a><br/>
|
||||||
|
<a href="#19-数学函数">1.9 数学函数</a><br/>
|
||||||
|
<a href="#110-聚合数据到集合">1.10 聚合数据到集合</a><br/>
|
||||||
|
<a href="#二分组聚合">二、分组聚合</a><br/>
|
||||||
|
<a href="#21-简单分组">2.1 简单分组</a><br/>
|
||||||
|
<a href="#22-分组聚合">2.2 分组聚合</a><br/>
|
||||||
|
<a href="#三自定义聚合函数">三、自定义聚合函数</a><br/>
|
||||||
|
<a href="#31-有类型的自定义函数">3.1 有类型的自定义函数</a><br/>
|
||||||
|
<a href="#32-无类型的自定义聚合函数">3.2 无类型的自定义聚合函数</a><br/>
|
||||||
|
</nav>
|
||||||
|
|
||||||
## 一、简单聚合
|
## 一、简单聚合
|
||||||
|
|
||||||
### 1.1 数据准备
|
### 1.1 数据准备
|
||||||
@ -225,7 +245,7 @@ object SparkSqlApp {
|
|||||||
|
|
||||||
自定义聚合函数需要实现的方法比较多,这里以绘图的方式来演示其执行流程,以及每个方法的作用:
|
自定义聚合函数需要实现的方法比较多,这里以绘图的方式来演示其执行流程,以及每个方法的作用:
|
||||||
|
|
||||||

|
<div align="center"> <img src="https://github.com/heibaiying/BigData-Notes/blob/master/pictures/spark-sql-自定义函数.png"/> </div>
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
@ -1,5 +1,14 @@
|
|||||||
# Structured API基本使用
|
# Structured API基本使用
|
||||||
|
|
||||||
|
<nav>
|
||||||
|
<a href="#一创建DataFrames">一、创建DataFrames</a><br/>
|
||||||
|
<a href="#二DataFrames基本操作">二、DataFrames基本操作</a><br/>
|
||||||
|
<a href="#三创建Datasets">三、创建Datasets</a><br/>
|
||||||
|
<a href="#四DataFrames与Datasets互相转换">四、DataFrames与Datasets互相转换</a><br/>
|
||||||
|
<a href="#五RDDs转换为DataFramesDatasets">五、RDDs转换为DataFrames\Datasets</a><br/>
|
||||||
|
</nav>
|
||||||
|
|
||||||
|
|
||||||
## 一、创建DataFrames
|
## 一、创建DataFrames
|
||||||
|
|
||||||
Spark中所有功能的入口点是`SparkSession`,可以使用`SparkSession.builder()`创建。创建后应用程序就可以从现有RDD,Hive表或Spark数据源创建DataFrame。如下所示:
|
Spark中所有功能的入口点是`SparkSession`,可以使用`SparkSession.builder()`创建。创建后应用程序就可以从现有RDD,Hive表或Spark数据源创建DataFrame。如下所示:
|
||||||
@ -15,7 +24,7 @@ import spark.implicits._
|
|||||||
|
|
||||||
这里可以启动`spark-shell`进行测试,需要注意的是`spark-shell`启动后会自动创建一个名为`spark`的`SparkSession`,在命令行中可以直接引用即可:
|
这里可以启动`spark-shell`进行测试,需要注意的是`spark-shell`启动后会自动创建一个名为`spark`的`SparkSession`,在命令行中可以直接引用即可:
|
||||||
|
|
||||||

|
<div align="center"> <img src="https://github.com/heibaiying/BigData-Notes/blob/master/pictures/spark-sql-shell.png"/> </div>
|
||||||
|
|
||||||
## 二、DataFrames基本操作
|
## 二、DataFrames基本操作
|
||||||
|
|
||||||
@ -26,7 +35,7 @@ import spark.implicits._
|
|||||||
df.printSchema()
|
df.printSchema()
|
||||||
```
|
```
|
||||||
|
|
||||||

|
<div align="center"> <img src="https://github.com/heibaiying/BigData-Notes/blob/master/pictures/spark-scheme.png"/> </div>
|
||||||
|
|
||||||
### 2.2 使用DataFrame API进行基本查询
|
### 2.2 使用DataFrame API进行基本查询
|
||||||
|
|
||||||
|
@ -1,4 +1,18 @@
|
|||||||
# 基于Zookeeper搭建Kafka高可用集群
|
# 基于Zookeeper搭建Kafka高可用集群
|
||||||
|
<nav>
|
||||||
|
<a href="#一Zookeeper集群搭建">一、Zookeeper集群搭建</a><br/>
|
||||||
|
<a href="#11-下载--解压">1.1 下载 & 解压</a><br/>
|
||||||
|
<a href="#12-修改配置">1.2 修改配置</a><br/>
|
||||||
|
<a href="#13-标识节点">1.3 标识节点</a><br/>
|
||||||
|
<a href="#14-启动集群">1.4 启动集群</a><br/>
|
||||||
|
<a href="#15-集群验证">1.5 集群验证</a><br/>
|
||||||
|
<a href="#二Kafka集群搭建">二、Kafka集群搭建</a><br/>
|
||||||
|
<a href="#21-下载解压">2.1 下载解压</a><br/>
|
||||||
|
<a href="#22-拷贝配置文件">2.2 拷贝配置文件</a><br/>
|
||||||
|
<a href="#23-修改配置">2.3 修改配置</a><br/>
|
||||||
|
<a href="#24-启动集群">2.4 启动集群</a><br/>
|
||||||
|
<a href="#25-创建测试主题">2.5 创建测试主题</a><br/>
|
||||||
|
</nav>
|
||||||
|
|
||||||
## 一、Zookeeper集群搭建
|
## 一、Zookeeper集群搭建
|
||||||
|
|
||||||
@ -210,7 +224,7 @@ bin/kafka-topics.sh --create --bootstrap-server hadoop001:9092 --replication-fac
|
|||||||
bin/kafka-topics.sh --describe --bootstrap-server hadoop001:9092 --topic my-replicated-topic
|
bin/kafka-topics.sh --describe --bootstrap-server hadoop001:9092 --topic my-replicated-topic
|
||||||
```
|
```
|
||||||
|
|
||||||

|
<div align="center"> <img src="https://github.com/heibaiying/BigData-Notes/blob/master/pictures/kafka-cluster-shell.png"/> </div>
|
||||||
|
|
||||||
你也可以创建一个消费者和生产者进行连通测试:
|
你也可以创建一个消费者和生产者进行连通测试:
|
||||||
|
|
||||||
|
Loading…
x
Reference in New Issue
Block a user