From 50ffdd50cff208330cd51c6eed1df5dd5c8c65ba Mon Sep 17 00:00:00 2001 From: heibaiying <31504331+heibaiying@users.noreply.github.com> Date: Thu, 16 May 2019 15:15:30 +0800 Subject: [PATCH] Update Spark-RDD.md --- notes/Spark-RDD.md | 6 +++--- 1 file changed, 3 insertions(+), 3 deletions(-) diff --git a/notes/Spark-RDD.md b/notes/Spark-RDD.md index 30d9676..d11e44f 100644 --- a/notes/Spark-RDD.md +++ b/notes/Spark-RDD.md @@ -179,7 +179,7 @@ Spark会自动监视每个节点上的缓存使用情况,并按照最近最少 Spark中,一个任务对应一个分区,通常不会跨分区操作数据。但如果遇到reduceByKey等操作,Spark必须从所有分区读取数据,并查找所有键的所有值,然后汇总在一起以计算每个键的最终结果 ,这称为shuffle。 -
+
@@ -206,7 +206,7 @@ RDD和它的父RDD(s)之间的依赖关系分为两种不同的类型: 如下图:每一个方框表示一个 RDD,带有颜色的矩形表示分区 -
+
@@ -226,7 +226,7 @@ RDD(s)及其之间的依赖关系组成了DAG(有向无环图),DAG定义了这 + 对于窄依赖,由于分区的依赖关系是确定的,其转换操作可以在同一个线程执行,所以可以划分到同一个执行阶段; + 对于宽依赖,由于Shuffle的存在,只能在父RDD(s)被Shuffle处理完成后,才能开始接下来的计算,因此遇到宽依赖就需要重新划分阶段。 -
+