diff --git a/notes/installation/Spark开发环境搭建.md b/notes/installation/Spark开发环境搭建.md index 386559b..c38229e 100644 --- a/notes/installation/Spark开发环境搭建.md +++ b/notes/installation/Spark开发环境搭建.md @@ -2,35 +2,18 @@ - - ## 一、安装Spark -### 1.1 下载安装包 +### 1.1 下载并解压 -官网下载地址:http://spark.apache.org/downloads.html - -因为Spark常常和Hadoop联合使用,所以下载时候需要选择Spark版本和对应的Hadoop版本后再下载 +官方下载地址:http://spark.apache.org/downloads.html,选择Spark版本和对应的Hadoop版本后再下载:
- - -### 1.2 解压安装包 +解压安装包: ```shell # tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz @@ -38,7 +21,7 @@ -### 1.3 配置环境变量 +### 1.2 配置环境变量 ```shell # vim /etc/profile @@ -51,28 +34,30 @@ export SPARK_HOME=/usr/app/spark-2.2.3-bin-hadoop2.6 export PATH=${SPARK_HOME}/bin:$PATH ``` -使得配置的环境变量生效: +使得配置的环境变量立即生效: ```shell # source /etc/profile ``` -### 1.4 Local模式 +### 1.3 Local模式 Local 模式是最简单的一种运行方式,它采用单节点多线程(cpu)方式运行,不用部署,开箱即用,适合日常测试开发。 ```shell -# 启动命令 +# 启动spark-shell spark-shell --master local[2] ``` -- local:只启动一个工作线程; -- local[k]:启动k个工作线程; -- local[*]:启动跟cpu数目相同的工作线程数。 +- **local**:只启动一个工作线程; +- **local[k]**:启动k个工作线程; +- **local[*]**:启动跟cpu数目相同的工作线程数。
-采用这种模式创建后,你会进入Scala交互式命令行,并且程序已经自动创建了SparkContext,即Spark的应用上下文,等效于执行了下面的Scala代码: +
+ +进入spark-shell后,程序已经自动创建好了上下文`SparkContext`,等效于执行了下面的Scala代码: ```scala val conf = new SparkConf().setAppName("Spark shell").setMaster("local[2]") @@ -85,7 +70,7 @@ val sc = new SparkContext(conf) ## 二、词频统计案例 -安装完成后可以先做一个简单的词频统计例子,感受spark的魅力。准备一个词频统计的文件样本wc.txt,内容如下: +安装完成后可以先做一个简单的词频统计例子,感受spark的魅力。准备一个词频统计的文件样本`wc.txt`,内容如下: ```txt hadoop,spark,hadoop @@ -101,11 +86,11 @@ val wordCounts = file.flatMap(line => line.split(",")).map((word => (word, 1))). wordCounts.collect ``` -执行过程如下: +执行过程如下,可以看到已经输出了词频统计的结果:
-可以通过spark shell web-ui可以查看作业的执行情况,访问端口为4040 +同时还可以通过Web UI查看作业的执行情况,访问端口为`4040`:
@@ -117,43 +102,41 @@ wordCounts.collect Spark是基于Scala语言进行开发的,分别提供了基于Scala、Java、Python语言的API,如果你想使用Scala语言进行开发,则需要搭建Scala语言的开发环境。 -### 2.1 前置条件 +### 3.1 前置条件 -首先Scala的运行依赖于Java环境,目前最新的Scala 2.12.x要求你必须安装JDK 1.8或以上版本。 +Scala的运行依赖于JDK,所以需要你本机有安装对应版本的JDK,最新的Scala 2.12.x需要JDK 1.8+。 -### 2.2 安装Scala插件 +### 3.2 安装Scala插件 -首先需要安装Scala插件,使得IDEA支持scala语言的开发。打开 IDEA,依次点击**File** => **settings**=> **plugins**选项卡,搜索Scala插件(如下图)。找到插件后进行安装,并重启IDEA使得安装生效。 +IDEA默认不支持Scala语言的开发,需要通过插件进行扩展。打开 IDEA,依次点击 **File** => **settings**=> **plugins** 选项卡,搜索Scala插件(如下图)。找到插件后进行安装,并重启IDEA使得安装生效。
-### 2.3 创建Scala项目 +### 3.3 创建Scala项目 -在IDEA中依次点击 **File** => **New** => **Project**选项卡,然后选择创建Scala—IDEA工程: +在IDEA中依次点击 **File** => **New** => **Project** 选项卡,然后选择创建`Scala—IDEA`工程:
-### 2.4 下载Scala SDK +### 3.4 下载Scala SDK -#### 1.方式一 +#### 1. 方式一 -此时看到Scala SDK为空,依次点击`Create` => `Download` ,选择所需的版本后,点击`OK`按钮进行下载,下载完成点击`Finish`进入工程。 +此时看到`Scala SDK`为空,依次点击`Create` => `Download` ,选择所需的版本后,点击`OK`按钮进行下载,下载完成点击`Finish`进入工程。
-#### 2.方式二 +#### 2. 方式二 -方式一是Scala官方安装指南里使用的方式,但下载速度可能会比较慢,且这种安装下并没有直接提供Scala命令行工具。所以个人推荐使用方式二进行安装。 +方式一是Scala官方安装指南里使用的方式,但下载速度通常比较慢,且这种安装下并没有直接提供Scala命令行工具。所以个人推荐到官网下载安装包进行安装,下载地址:https://www.scala-lang.org/download/ -> 官方下载地址:https://www.scala-lang.org/download/ - -这里我的系统是Windows,下载msi版本的安装包后,一直点击下一步安装即可,安装完成后会自动配置好环境变量。 +这里我的系统是Windows,下载msi版本的安装包后,一直点击下一步进行安装,安装完成后会自动配置好环境变量。
@@ -165,9 +148,9 @@ Spark是基于Scala语言进行开发的,分别提供了基于Scala、Java、P -### 2.5 创建Hello World +### 3.5 创建Hello World -在工程 `src`目录上右击**New** => **Scala class**.创建`Hello.scala`。输入代码如下,完成后点击运行按钮,成功运行则代表搭建成功。 +在工程 `src`目录上右击 **New** => **Scala class** 创建`Hello.scala`。输入代码如下,完成后点击运行按钮,成功运行则代表搭建成功。
@@ -175,9 +158,9 @@ Spark是基于Scala语言进行开发的,分别提供了基于Scala、Java、P -### 2.6 切换Scala版本 +### 3.6 切换Scala版本 -在日常的开发中,由于Spark版本的切换,可能导致需要切换Scala版本,此时可以在`Project Structures`中的`Global Libraries`选项卡进行切换。 +在日常的开发中,由于对应软件(如Spark)的版本切换,可能导致需要切换Scala的版本,则可以在`Project Structures`中的`Global Libraries`选项卡中进行切换。
@@ -185,7 +168,13 @@ Spark是基于Scala语言进行开发的,分别提供了基于Scala、Java、P +### 3.7 可能出现的问题 + +在IDEA中有时候重新打开项目后,右击并不会出现新建`scala`文件的选项,或者在编写时没有Scala语法提示,此时可以先删除`Global Libraries`中配置好的SDK,之后再重新添加: + +
+**另外在IDEA中以本地模式运行Spark项目是不需要在本机搭建Spark和Hadoop环境的。** diff --git a/pictures/scala-sdk.png b/pictures/scala-sdk.png new file mode 100644 index 0000000..eb275b4 Binary files /dev/null and b/pictures/scala-sdk.png differ