From 34819a50ce4360269251c2e7bb99694a7ffce59f Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E7=BD=97=E7=A5=A5?= <1366971433@qq.com> Date: Tue, 4 Jun 2019 11:03:40 +0800 Subject: [PATCH] =?UTF-8?q?Spark=E7=AE=80=E4=BB=8B?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- notes/Spark简介.md | 20 ++++++++++---------- 1 file changed, 10 insertions(+), 10 deletions(-) diff --git a/notes/Spark简介.md b/notes/Spark简介.md index 7afef4f..c5d0f10 100644 --- a/notes/Spark简介.md +++ b/notes/Spark简介.md @@ -14,15 +14,15 @@ ## 一、简介 -Spark于2009年诞生于加州大学伯克利分校AMPLab。2013年,该项目被捐赠给Apache软件基金会。2014年2月,成为Apache的顶级项目。相对于MapReduce上的批处理计算,Spark可以带来上百倍的性能提升,因此它成为继MapReduce之后,最为广泛使用的计算框架。 +Spark于2009年诞生于加州大学伯克利分校AMPLab,2013年被捐赠给Apache软件基金会。2014年2月成为Apache的顶级项目。相对于MapReduce的批处理计算,Spark可以带来上百倍的性能提升,因此它成为继MapReduce之后,最为广泛使用的分布式计算框架。 ## 二、特点 -+ Apache Spark使用最先进的DAG调度程序,查询优化器和物理执行引擎,以实现性能上的保证; -+ 多语言支持,如Java,Scala,Python,R语言; -+ Spark提供80多个高级的API,可以轻松构建并行应用程序; -+ 支持批处理,流处理和复杂的分析; -+ 丰富的类库支持:包括SQL,DataFrames,MLlib,GraphX和Spark Streaming等库。并且可以在同一个应用程序中无缝地进行组合; ++ Apache Spark使用先进的DAG调度程序,查询优化器和物理执行引擎,以实现性能上的保证; ++ 多语言支持,目前支持的有Java,Scala,Python和R; ++ 提供了80多个高级API,可以轻松地构建应用程序; ++ 支持批处理,流处理和复杂的业务分析; ++ 丰富的类库支持:包括SQL,MLlib,GraphX和Spark Streaming等库,并且可以将它们无缝地进行组合; + 丰富的部署模式:支持本地模式和自带的集群模式,也支持在Hadoop,Mesos,Kubernetes上运行; + 多数据源支持:支持访问HDFS,Alluxio,Cassandra,HBase,Hive以及数百个其他数据源中的数据。 @@ -43,7 +43,7 @@ Spark于2009年诞生于加州大学伯克利分校AMPLab。2013年,该项目 **执行过程**: -1. 用户程序创建SparkContext后,其会连接到集群资源管理器,集群资源管理器会为计算程序分配计算资源,并启动Executor; +1. 用户程序创建SparkContext后,它会连接到集群资源管理器,集群资源管理器会为用户程序分配计算资源,并启动Executor; 2. Dirver将计算程序划分为不同的执行阶段和多个Task,之后将Task发送给Executor; 3. Executor负责执行Task,并将执行状态汇报给Driver,同时也会将当前节点资源的使用情况汇报给集群资源管理器。 @@ -59,7 +59,7 @@ Spark SQL主要用于结构化数据的处理。其具有以下特点: - 能够将SQL查询与Spark程序无缝混合,允许您使用SQL或DataFrame API对结构化数据进行查询; - 支持多种数据源,包括Hive,Avro,Parquet,ORC,JSON和JDBC; -- 支持HiveQL语法以及Hive SerDes和UDF,允许你访问现有的Hive仓库; +- 支持HiveQL语法以及用户自定义函数(UDF),允许你访问现有的Hive仓库; - 支持标准的JDBC和ODBC连接; - 支持优化器,列式存储和代码生成等特性,以提高查询效率。 @@ -69,7 +69,7 @@ Spark Streaming主要用于快速构建可扩展,高吞吐量,高容错的