Merge branch 'master' of github.com:heibaiying/BigData-Notes

2019-05-19 21:43:35 +08:00
parent 4172a932a5 48f4db8a6d
commit 76f32cf09a
2 changed files with 19 additions and 18 deletions
--- a/notes/Spark简介.md
+++ b/notes/Spark简介.md
@@ -1,16 +1,17 @@
 # Spark简介
-
-<nav>
-<a href="#一简介">一、简介</a><br/>
-<a href="#二特点">二、特点</a><br/>
-<a href="#三集群架构">三、集群架构</a><br/>
-<a href="#四核心组件">四、核心组件</a><br/>
-&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<a href="#31-Spark--SQL">3.1 Spark  SQL</a><br/>
-&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<a href="#32-Spark-Streaming">3.2 Spark Streaming</a><br/>
-&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<a href="#33-MLlib">3.3 MLlib</a><br/>
-&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<a href="#34-Graphx">3.4 Graphx</a><br/>
-<a href="#">  </a><br/>
-</nav>
+
+<nav>
+<a href="#一简介">一、简介</a><br/>
+<a href="#二特点">二、特点</a><br/>
+<a href="#三集群架构">三、集群架构</a><br/>
+<a href="#四核心组件">四、核心组件</a><br/>
+&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<a href="#31-Spark--SQL">3.1 Spark  SQL</a><br/>
+&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<a href="#32-Spark-Streaming">3.2 Spark Streaming</a><br/>
+&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<a href="#33-MLlib">3.3 MLlib</a><br/>
+&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<a href="#34-Graphx">3.4 Graphx</a><br/>
+<a href="#">  </a><br/>
+</nav>
+
 ## 一、简介

 Spark于2009年诞生于加州大学伯克利分校AMPLab。2013年，该项目被捐赠给Apache软件基金会。2014年2月，成为Apache的顶级项目。相对于MapReduce上的批处理计算，Spark可以带来上百倍的性能提升，因此它成为继MapReduce之后，最为广泛使用的计算框架。
@@ -31,7 +32,7 @@ Spark于2009年诞生于加州大学伯克利分校AMPLab。2013年，该项目

 + 多数据源支持：支持访问HDFS，Alluxio，Cassandra，HBase，Hive以及数百个其他数据源中的数据。

-
+<div align="center"> <img width="600px" src="https://github.com/heibaiying/BigData-Notes/blob/master/pictures/future-of-spark.png"/> </div>

 ## 三、集群架构

@@ -56,7 +57,7 @@ Spark于2009年诞生于加州大学伯克利分校AMPLab。2013年，该项目

 Spark基于Spark Core扩展了四个核心组件，分别用于满足不同领域的计算需求。

-
+<div align="center"> <img  width="600px" src="https://github.com/heibaiying/BigData-Notes/blob/master/pictures/spark-stack.png"/> </div>

 ### 3.1 Spark  SQL

@@ -94,4 +95,4 @@ MLlib是Spark的机器学习库。其设计目标是使得机器学习变得简

 GraphX是Spark中用于图形计算和图形并行计算的新组件。在高层次上，GraphX通过引入一个新的图形抽象来扩展 RDD：一种具有附加到每个顶点和边缘的属性的定向多重图形。为了支持图计算，GraphX提供了一组基本运算符（如： subgraph，joinVertices 和 aggregateMessages）以及优化后的Pregel API。此外，GraphX 还包括越来越多的图形算法和构建器，以简化图形分析任务。

-
+##   
--- a/notes/Spark部署模式与作业提交.md
+++ b/notes/Spark部署模式与作业提交.md
@@ -12,7 +12,7 @@

 ### 1.1  spark-submit

-Spark所有模式均通过使用` spark-submit`提交作业，其命令格式如下：
+Spark所有模式均通过使用`spark-submit`提交作业，其命令格式如下：

 ```shell
 ./bin/spark-submit \
@@ -172,9 +172,9 @@ check your cluster UI to ensure that workers are registered and have sufficient

 这时候可以查看Web UI，我这里是内存空间不足：提交命令中要求作业的`executor-memory`是2G，但是实际的工作节点的`Memory`只有1G，这时候你可以修改`--executor-memory`，也可以修改 Woker 的`Memory`，其默认值为主机所有可用内存值减去1G。

-<div align="center"> <img src="https://github.com/heibaiying/BigData-Notes/blob/master/pictures/spark-内存不足.png"/> </div>
+<div align="center"> <img src="https://github.com/heibaiying/BigData-Notes/blob/master/pictures/spark-内存不足.png"/> </div>   

-关于Master和Woker节点的所有可选配置如下，可以在`spark-env.sh`进行对应的配置：
+关于Master和Woker节点的所有可选配置如下，可以在`spark-env.sh`中进行对应的配置：    

 | Environment Variable（环境变量） | Meaning（含义）                                              |
 | -------------------------------- | ------------------------------------------------------------ |