diff --git a/notes/SparkSQL-Datasets&DataFrames.md b/notes/SparkSQL-Datasets&DataFrames.md index 58931b4..f7eed40 100644 --- a/notes/SparkSQL-Datasets&DataFrames.md +++ b/notes/SparkSQL-Datasets&DataFrames.md @@ -72,7 +72,7 @@ Dataset是分布式的数据集合,在Spark 1.6版本被引入。它集成了R -
+
### 2.4 静态类型与运行时类型安全 @@ -84,7 +84,7 @@ Dataset是分布式的数据集合,在Spark 1.6版本被引入。它集成了R 以上这些最终都被解释成关于类型安全图谱,对应开发中的语法和分析错误。在图谱中,Dataset最严格,但对于开发者来说效率最高。 -
+
上面的描述可能并没有那么直观,下面的给出一个IDEA中代码编译的示例: @@ -116,7 +116,7 @@ val dataSet: Dataset[Person] = spark.read.json("people.json").as[Person] + 相比于DataFrame而言,DataSet是强类型的(Typed),有着更为严格的静态类型检查; + DataSets、DataFrames、SQL的底层都依赖了RDDs API,并对外提供结构化的访问接口。 -
+