diff --git a/notes/Spark-RDD.md b/notes/Spark-RDD.md index 30d9676..d11e44f 100644 --- a/notes/Spark-RDD.md +++ b/notes/Spark-RDD.md @@ -179,7 +179,7 @@ Spark会自动监视每个节点上的缓存使用情况,并按照最近最少 Spark中,一个任务对应一个分区,通常不会跨分区操作数据。但如果遇到reduceByKey等操作,Spark必须从所有分区读取数据,并查找所有键的所有值,然后汇总在一起以计算每个键的最终结果 ,这称为shuffle。 -