diff --git a/README.md b/README.md index eaecb01..a649ab2 100644 --- a/README.md +++ b/README.md @@ -82,16 +82,16 @@ **Spark SQL :** -1. DataFrame和DateSet +1. [Spark SQL之 DateFrame 和 DataSet](https://github.com/heibaiying/BigData-Notes/blob/master/notes/SparkSQL-Dataset&DataFrame.md) 2. Spark SQL之常用SQL语句 3. External Data Source **Spark Streaming :** -1. Spark Streaming简介 -2. DStream常用函数 -3. Spark Streaming 整合 flume -4. Spark Streaming 整合 kafka +1. [Spark Streaming简介](https://github.com/heibaiying/BigData-Notes/blob/master/notes/Spark-Streaming与流处理.md) +2. DStream常用操作详解 +3. Spark Streaming 整合 Flume +4. Spark Streaming 整合 Kafka ## 四、Flink diff --git a/notes/Spark-Streaming与流处理.md b/notes/Spark-Streaming与流处理.md new file mode 100644 index 0000000..dfbce30 --- /dev/null +++ b/notes/Spark-Streaming与流处理.md @@ -0,0 +1,78 @@ +# Spark Streaming与流处理 + + + +## 一、流处理 + +### 1.1 静态数据处理 + +在流处理之前,数据通常存储在数据库,文件系统或其他形式的存储系统中。应用程序根据需要查询数据或计算数据。这就是传统的静态数据处理架构。Hadoop采用HDFS进行数据存储,采用MapReduce进行数据查询或分析,这就是典型的静态数据处理架构。 + +