From 023fa05952db8544c3ee99a76745cfc565a9844b Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E7=BD=97=E7=A5=A5?= <1366971433@qq.com> Date: Tue, 4 Jun 2019 11:06:56 +0800 Subject: [PATCH] =?UTF-8?q?spark=E7=AE=80=E4=BB=8B?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- notes/Spark简介.md | 18 ++++++++++-------- 1 file changed, 10 insertions(+), 8 deletions(-) diff --git a/notes/Spark简介.md b/notes/Spark简介.md index c5d0f10..80a9bc1 100644 --- a/notes/Spark简介.md +++ b/notes/Spark简介.md @@ -14,11 +14,13 @@ ## 一、简介 -Spark于2009年诞生于加州大学伯克利分校AMPLab,2013年被捐赠给Apache软件基金会。2014年2月成为Apache的顶级项目。相对于MapReduce的批处理计算,Spark可以带来上百倍的性能提升,因此它成为继MapReduce之后,最为广泛使用的分布式计算框架。 +Spark于2009年诞生于加州大学伯克利分校AMPLab,2013年被捐赠给Apache软件基金会,2014年2月成为Apache的顶级项目。相对于MapReduce的批处理计算,Spark可以带来上百倍的性能提升,因此它成为继MapReduce之后,最为广泛使用的分布式计算框架。 ## 二、特点 -+ Apache Spark使用先进的DAG调度程序,查询优化器和物理执行引擎,以实现性能上的保证; +Apache Spark具有以下特点: + ++ 使用先进的DAG调度程序,查询优化器和物理执行引擎,以实现性能上的保证; + 多语言支持,目前支持的有Java,Scala,Python和R; + 提供了80多个高级API,可以轻松地构建应用程序; + 支持批处理,流处理和复杂的业务分析; @@ -33,7 +35,7 @@ Spark于2009年诞生于加州大学伯克利分校AMPLab,2013年被捐赠给A | Term(术语) | Meaning(含义) | | --------------- | ------------------------------------------------------------ | | Application | Spark应用程序,由集群上的一个Driver节点和多个Executor节点组成。 | -| Driver program | 主运用程序,该进程运行应用的 main() 方法并且创建了 SparkContext | +| Driver program | 主运用程序,该进程运行应用的 main() 方法并且创建 SparkContext | | Cluster manager | 集群资源管理器(例如,Standlone Manager,Mesos,YARN) | | Worker node | 执行计算任务的工作节点 | | Executor | 位于工作节点上的应用进程,负责执行计算任务并且将输出数据保存到内存或者磁盘中 | @@ -79,11 +81,11 @@ Spark Streaming主要用于快速构建可扩展,高吞吐量,高容错的 MLlib是Spark的机器学习库。其设计目标是使得机器学习变得简单且可扩展。它提供了以下工具: -+ 常见的机器学习算法:如分类,回归,聚类和协同过滤; -+ 特征化:特征提取,转换,降维和选择; -+ 管道:用于构建,评估和调整ML管道的工具; -+ 持久性:保存和加载算法,模型,管道数据; -+ 实用工具:线性代数,统计,数据处理等。 ++ **常见的机器学习算法**:如分类,回归,聚类和协同过滤; ++ **特征化**:特征提取,转换,降维和选择; ++ **管道**:用于构建,评估和调整ML管道的工具; ++ **持久性**:保存和加载算法,模型,管道数据; ++ **实用工具**:线性代数,统计,数据处理等。 ### 3.4 Graphx