spark简介

This commit is contained in:
罗祥 2019-06-04 11:06:56 +08:00
parent 34819a50ce
commit 023fa05952

View File

@ -14,11 +14,13 @@
## 一、简介 ## 一、简介
Spark于2009年诞生于加州大学伯克利分校AMPLab2013年被捐赠给Apache软件基金会2014年2月成为Apache的顶级项目。相对于MapReduce的批处理计算Spark可以带来上百倍的性能提升因此它成为继MapReduce之后最为广泛使用的分布式计算框架。 Spark于2009年诞生于加州大学伯克利分校AMPLab2013年被捐赠给Apache软件基金会2014年2月成为Apache的顶级项目。相对于MapReduce的批处理计算Spark可以带来上百倍的性能提升因此它成为继MapReduce之后最为广泛使用的分布式计算框架。
## 二、特点 ## 二、特点
+ Apache Spark使用先进的DAG调度程序查询优化器和物理执行引擎以实现性能上的保证 Apache Spark具有以下特点
+ 使用先进的DAG调度程序查询优化器和物理执行引擎以实现性能上的保证
+ 多语言支持目前支持的有JavaScalaPython和R + 多语言支持目前支持的有JavaScalaPython和R
+ 提供了80多个高级API可以轻松地构建应用程序 + 提供了80多个高级API可以轻松地构建应用程序
+ 支持批处理,流处理和复杂的业务分析; + 支持批处理,流处理和复杂的业务分析;
@ -33,7 +35,7 @@ Spark于2009年诞生于加州大学伯克利分校AMPLab2013年被捐赠给A
| Term术语 | Meaning含义 | | Term术语 | Meaning含义 |
| --------------- | ------------------------------------------------------------ | | --------------- | ------------------------------------------------------------ |
| Application | Spark应用程序由集群上的一个Driver节点和多个Executor节点组成。 | | Application | Spark应用程序由集群上的一个Driver节点和多个Executor节点组成。 |
| Driver program | 主运用程序,该进程运行应用的 main() 方法并且创建 SparkContext | | Driver program | 主运用程序,该进程运行应用的 main() 方法并且创建 SparkContext |
| Cluster manager | 集群资源管理器例如Standlone ManagerMesosYARN | | Cluster manager | 集群资源管理器例如Standlone ManagerMesosYARN |
| Worker node | 执行计算任务的工作节点 | | Worker node | 执行计算任务的工作节点 |
| Executor | 位于工作节点上的应用进程,负责执行计算任务并且将输出数据保存到内存或者磁盘中 | | Executor | 位于工作节点上的应用进程,负责执行计算任务并且将输出数据保存到内存或者磁盘中 |
@ -79,11 +81,11 @@ Spark Streaming主要用于快速构建可扩展高吞吐量高容错的
MLlib是Spark的机器学习库。其设计目标是使得机器学习变得简单且可扩展。它提供了以下工具 MLlib是Spark的机器学习库。其设计目标是使得机器学习变得简单且可扩展。它提供了以下工具
+ 常见的机器学习算法:如分类,回归,聚类和协同过滤; + **常见的机器学习算法**:如分类,回归,聚类和协同过滤;
+ 特征化:特征提取,转换,降维和选择; + **特征化**:特征提取,转换,降维和选择;
+ 管道用于构建评估和调整ML管道的工具 + **管道**用于构建评估和调整ML管道的工具
+ 持久性:保存和加载算法,模型,管道数据; + **持久性**:保存和加载算法,模型,管道数据;
+ 实用工具:线性代数,统计,数据处理等。 + **实用工具**:线性代数,统计,数据处理等。
### 3.4 Graphx ### 3.4 Graphx