From 817971739918fcd2fca0d5292753e46c9bdafbdd Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E7=BD=97=E7=A5=A5?= <1366971433@qq.com>
Date: Tue, 4 Jun 2019 15:00:03 +0800
Subject: [PATCH] =?UTF-8?q?Spark=E9=83=A8=E7=BD=B2=E6=A8=A1=E5=BC=8F?=
=?UTF-8?q?=E4=B8=8E=E4=BD=9C=E4=B8=9A=E6=8F=90=E4=BA=A4?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit
---
notes/Spark部署模式与作业提交.md | 28 ++++++++++++-----------
1 file changed, 15 insertions(+), 13 deletions(-)
diff --git a/notes/Spark部署模式与作业提交.md b/notes/Spark部署模式与作业提交.md
index e7ebf83..03092fe 100644
--- a/notes/Spark部署模式与作业提交.md
+++ b/notes/Spark部署模式与作业提交.md
@@ -12,7 +12,7 @@
### 1.1 spark-submit
-Spark所有模式均通过使用`spark-submit`提交作业,其命令格式如下:
+Spark所有模式均使用`spark-submit`命令提交作业,其格式如下:
```shell
./bin/spark-submit \
@@ -25,14 +25,14 @@ Spark所有模式均通过使用`spark-submit`提交作业,其命令格式如
[application-arguments] #传递给主入口类的参数
```
-需要注意的是:在集群环境下,`application-jar`必须能被集群中所有节点都能访问,可以是HDFS上的路径;也可以是本地文件系统路径,如果是本地文件系统路径,则要求集群中每一个节点上的相同路径都存在该Jar包。
+需要注意的是:在集群环境下,`application-jar`必须能被集群中所有节点都能访问,可以是HDFS上的路径;也可以是本地文件系统路径,如果是本地文件系统路径,则要求集群中每一个机器节点上的相同路径都存在该Jar包。
### 1.2 deploy-mode
deploy-mode有`cluster`和`client`两个可选参数,默认为`client`。这里以Spark On Yarn模式对两者的区别进行说明 :
-+ 在cluster模式下,Spark Drvier在应用程序Master进程内运行,该进程由群集上的YARN管理,提交作业的客户端可以在启动应用程序后关闭;
-+ 在client模式下,Spark Drvier在提交作业的客户端进程中运行,应用程序Master服务器仅用于从YARN请求资源。
++ 在cluster模式下,Spark Drvier在应用程序的Master进程内运行,该进程由群集上的YARN管理,提交作业的客户端可以在启动应用程序后关闭;
++ 在client模式下,Spark Drvier在提交作业的客户端进程中运行,Master进程仅用于从YARN请求资源。
### 1.3 master-url
@@ -45,12 +45,12 @@ master-url的所有可选参数如下表所示:
| `local[K,F]` | 使用 K 个 worker 线程本地运行 , 第二个参数为Task的失败重试次数 |
| `local[*]` | 使用与CPU核心数一样的线程数在本地运行Spark |
| `local[*,F]` | 使用与CPU核心数一样的线程数在本地运行Spark
第二个参数为Task的失败重试次数 |
-| `spark://HOST:PORT` | 连接至指定的standalone 集群的 master节点。端口号默认是 7077。 |
+| `spark://HOST:PORT` | 连接至指定的 standalone 集群的 master 节点。端口号默认是 7077。 |
| `spark://HOST1:PORT1,HOST2:PORT2` | 如果standalone集群采用Zookeeper实现高可用,则必须包含由zookeeper设置的所有master主机地址。 |
| `mesos://HOST:PORT` | 连接至给定的Mesos集群。端口默认是 5050。对于使用了 ZooKeeper 的 Mesos cluster 来说,使用 `mesos://zk://...`来指定地址,使用 `--deploy-mode cluster`模式来提交。 |
-| `yarn` | 连接至一个YARN 集群,集群由配置的 `HADOOP_CONF_DIR` 或者 `YARN_CONF_DIR` 来决定。使用`--deploy-mode`参数来配置`client` 或`cluster` 模式。 |
+| `yarn` | 连接至一个 YARN 集群,集群由配置的 `HADOOP_CONF_DIR` 或者 `YARN_CONF_DIR` 来决定。使用`--deploy-mode`参数来配置`client` 或`cluster` 模式。 |
-接下来主要介绍三种常用部署模式的配置及作业的提交。
+下面主要介绍三种常用部署模式及对应的作业提交方式。
## 二、Local模式
@@ -65,7 +65,7 @@ spark-submit \
100 # 传给SparkPi的参数
```
-这里的`spark-examples_2.11-2.4.0.jar`在Spark安装包里默认就有,是Spark官方提供的测试用例,`SparkPi`用于计算Pi值,执行成功后可以在输出中看到计算出的Pi值。
+`spark-examples_2.11-2.4.0.jar`是Spark提供的测试用例包,`SparkPi`用于计算Pi值,执行结果如下: