diff --git a/notes/Storm和流处理简介.md b/notes/Storm和流处理简介.md index e77bcb4..88c9427 100644 --- a/notes/Storm和流处理简介.md +++ b/notes/Storm和流处理简介.md @@ -1,10 +1,22 @@ -Storm和流处理简介 +# Storm和流处理简介 -一、storm简介 + -1.1 简介 -storm 是一个开源的分布式实时计算系统,可以简单、可靠进行大数据流的处理。通常用于实时分析,在线机器学习、持续计算、分布式RPC、ETL等场景。其具有以下特点: +## 一、Storm + +#### 1.1 简介 + +storm 是一个开源的分布式实时计算系统,可以简单、可靠进行大数据流的处理。通常用于实时分析,在线机器学习、持续计算、分布式RPC、ETL等场景。storm具有以下特点: + 支持水平横向扩展; + 具有高容错性,通过ACK机制每个消息都不丢失; @@ -15,17 +27,19 @@ storm 是一个开源的分布式实时计算系统,可以简单、可靠进 -1.2 Storm与Hadoop对比 +#### 1.2 Storm 与 Hadoop对比 Hadoop采用HDFS存储数据,采用MapReduce处理数据。MapReduce主要是进行数据的批处理,这使得Hadoop更适合于海量数据的离线处理,却不适合于实时性要求比较高的场景。而Strom的设计目标就是就是对数据进行实时计算,这使得其更适合实时数据分析等场景。 -1.3 Strom与spark Streaming对比 + + +#### 1.3 Storm 与 spark Streaming对比 严格意义上说spark Streaming并不是实时计算框架。 Spark Streaming接收实时输入的数据流,并将数据拆分为批处理,由Spark引擎处理后批量生成结果流。只不过 Spark Streaming 能够将数据流按秒级进行拆分,使得其能够得到接近于流处理的效果,但其本质上还是批处理(或微批处理)。 - +