spark简介

2019-06-04 11:06:56 +08:00
parent 34819a50ce
commit 023fa05952
1 changed files with 10 additions and 8 deletions
--- a/notes/Spark简介.md
+++ b/notes/Spark简介.md
@@ -14,11 +14,13 @@
 ## 一、简介
-Spark于2009年诞生于加州大学伯克利分校AMPLab，2013年被捐赠给Apache软件基金会。2014年2月成为Apache的顶级项目。相对于MapReduce的批处理计算，Spark可以带来上百倍的性能提升，因此它成为继MapReduce之后，最为广泛使用的分布式计算框架。
+Spark于2009年诞生于加州大学伯克利分校AMPLab，2013年被捐赠给Apache软件基金会，2014年2月成为Apache的顶级项目。相对于MapReduce的批处理计算，Spark可以带来上百倍的性能提升，因此它成为继MapReduce之后，最为广泛使用的分布式计算框架。
 ## 二、特点
-+ Apache Spark使用先进的DAG调度程序，查询优化器和物理执行引擎，以实现性能上的保证；
+Apache Spark具有以下特点：
 + 使用先进的DAG调度程序，查询优化器和物理执行引擎，以实现性能上的保证；
 + 多语言支持，目前支持的有Java，Scala，Python和R；
 + 提供了80多个高级API，可以轻松地构建应用程序；
 + 支持批处理，流处理和复杂的业务分析；
@@ -33,7 +35,7 @@ Spark于2009年诞生于加州大学伯克利分校AMPLab，2013年被捐赠给A
 | Term（术语）    | Meaning（含义）                                              |
 | --------------- | ------------------------------------------------------------ |
 | Application     | Spark应用程序，由集群上的一个Driver节点和多个Executor节点组成。 |
-| Driver program  | 主运用程序，该进程运行应用的 main() 方法并且创建了 SparkContext |
+| Driver program  | 主运用程序，该进程运行应用的 main() 方法并且创建  SparkContext |
 | Cluster manager | 集群资源管理器（例如，Standlone Manager，Mesos，YARN）       |
 | Worker node     | 执行计算任务的工作节点                                       |
 | Executor        | 位于工作节点上的应用进程，负责执行计算任务并且将输出数据保存到内存或者磁盘中 |
@@ -79,11 +81,11 @@ Spark Streaming主要用于快速构建可扩展，高吞吐量，高容错的
 MLlib是Spark的机器学习库。其设计目标是使得机器学习变得简单且可扩展。它提供了以下工具：
-+ 常见的机器学习算法：如分类，回归，聚类和协同过滤；
+ **常见的机器学习算法**：如分类，回归，聚类和协同过滤；
-+ 特征化：特征提取，转换，降维和选择；
+ **特征化**：特征提取，转换，降维和选择；
-+ 管道：用于构建，评估和调整ML管道的工具；
+ **管道**：用于构建，评估和调整ML管道的工具；
-+ 持久性：保存和加载算法，模型，管道数据；
+ **持久性**：保存和加载算法，模型，管道数据；
-+ 实用工具：线性代数，统计，数据处理等。
+ **实用工具**：线性代数，统计，数据处理等。
 ### 3.4 Graphx