spark简介
This commit is contained in:
parent
34819a50ce
commit
023fa05952
@ -14,11 +14,13 @@
|
|||||||
|
|
||||||
## 一、简介
|
## 一、简介
|
||||||
|
|
||||||
Spark于2009年诞生于加州大学伯克利分校AMPLab,2013年被捐赠给Apache软件基金会。2014年2月成为Apache的顶级项目。相对于MapReduce的批处理计算,Spark可以带来上百倍的性能提升,因此它成为继MapReduce之后,最为广泛使用的分布式计算框架。
|
Spark于2009年诞生于加州大学伯克利分校AMPLab,2013年被捐赠给Apache软件基金会,2014年2月成为Apache的顶级项目。相对于MapReduce的批处理计算,Spark可以带来上百倍的性能提升,因此它成为继MapReduce之后,最为广泛使用的分布式计算框架。
|
||||||
|
|
||||||
## 二、特点
|
## 二、特点
|
||||||
|
|
||||||
+ Apache Spark使用先进的DAG调度程序,查询优化器和物理执行引擎,以实现性能上的保证;
|
Apache Spark具有以下特点:
|
||||||
|
|
||||||
|
+ 使用先进的DAG调度程序,查询优化器和物理执行引擎,以实现性能上的保证;
|
||||||
+ 多语言支持,目前支持的有Java,Scala,Python和R;
|
+ 多语言支持,目前支持的有Java,Scala,Python和R;
|
||||||
+ 提供了80多个高级API,可以轻松地构建应用程序;
|
+ 提供了80多个高级API,可以轻松地构建应用程序;
|
||||||
+ 支持批处理,流处理和复杂的业务分析;
|
+ 支持批处理,流处理和复杂的业务分析;
|
||||||
@ -33,7 +35,7 @@ Spark于2009年诞生于加州大学伯克利分校AMPLab,2013年被捐赠给A
|
|||||||
| Term(术语) | Meaning(含义) |
|
| Term(术语) | Meaning(含义) |
|
||||||
| --------------- | ------------------------------------------------------------ |
|
| --------------- | ------------------------------------------------------------ |
|
||||||
| Application | Spark应用程序,由集群上的一个Driver节点和多个Executor节点组成。 |
|
| Application | Spark应用程序,由集群上的一个Driver节点和多个Executor节点组成。 |
|
||||||
| Driver program | 主运用程序,该进程运行应用的 main() 方法并且创建了 SparkContext |
|
| Driver program | 主运用程序,该进程运行应用的 main() 方法并且创建 SparkContext |
|
||||||
| Cluster manager | 集群资源管理器(例如,Standlone Manager,Mesos,YARN) |
|
| Cluster manager | 集群资源管理器(例如,Standlone Manager,Mesos,YARN) |
|
||||||
| Worker node | 执行计算任务的工作节点 |
|
| Worker node | 执行计算任务的工作节点 |
|
||||||
| Executor | 位于工作节点上的应用进程,负责执行计算任务并且将输出数据保存到内存或者磁盘中 |
|
| Executor | 位于工作节点上的应用进程,负责执行计算任务并且将输出数据保存到内存或者磁盘中 |
|
||||||
@ -79,11 +81,11 @@ Spark Streaming主要用于快速构建可扩展,高吞吐量,高容错的
|
|||||||
|
|
||||||
MLlib是Spark的机器学习库。其设计目标是使得机器学习变得简单且可扩展。它提供了以下工具:
|
MLlib是Spark的机器学习库。其设计目标是使得机器学习变得简单且可扩展。它提供了以下工具:
|
||||||
|
|
||||||
+ 常见的机器学习算法:如分类,回归,聚类和协同过滤;
|
+ **常见的机器学习算法**:如分类,回归,聚类和协同过滤;
|
||||||
+ 特征化:特征提取,转换,降维和选择;
|
+ **特征化**:特征提取,转换,降维和选择;
|
||||||
+ 管道:用于构建,评估和调整ML管道的工具;
|
+ **管道**:用于构建,评估和调整ML管道的工具;
|
||||||
+ 持久性:保存和加载算法,模型,管道数据;
|
+ **持久性**:保存和加载算法,模型,管道数据;
|
||||||
+ 实用工具:线性代数,统计,数据处理等。
|
+ **实用工具**:线性代数,统计,数据处理等。
|
||||||
|
|
||||||
### 3.4 Graphx
|
### 3.4 Graphx
|
||||||
|
|
||||||
|
Loading…
x
Reference in New Issue
Block a user