IDEA编译运行Spark源码

Leefs 2023-04-04 PM 3131℃ 2条

### 前言

**环境准备**

+ IDEA 2022.3
+ Scala 2.12.15
+ maven 3.6.3
+ JDK 1.8

### 一、下载Spark源码

**1.1 官网地址**

+ Spark官网地址：https://spark.apache.org/downloads.html

+ 本次下载的源码版本为：Spark 3.2.3

**1.2 下载之前版本Spark**

![01.IDEA编译运行Spark源码01.jpg](https://lilinchao.com/usr/uploads/2023/04/1406735142.jpg)

**1.3 选择Spark 3.2.3版本**

![01.IDEA编译运行Spark源码02.jpg](https://lilinchao.com/usr/uploads/2023/04/2962809896.jpg)

+ 下载地址：https://archive.apache.org/dist/spark/

**1.4 下载源码文件**

+ 选择下载的源码文件**spark-3.2.3.tgz**

![01.IDEA编译运行Spark源码03.jpg](https://lilinchao.com/usr/uploads/2023/04/3996382372.jpg)

**1.5 将源码文件解压到对应目录**

### 二、IDEA插件安装

编译Spark源码需要安装Scala和antlr两个插件，如果在IDEA中没有搜索到antlr插件，需要从网上下载一个插件包，导入到idea中。

+ **antlr4插件地址**

```
https://plugins.jetbrains.com/plugin/7358-antlr-v4/versions
```

![01.IDEA编译运行Spark源码04.jpg](https://lilinchao.com/usr/uploads/2023/04/2896939533.jpg)

### 三、编译源码

**3.1 将源码导入到IDEA中**

> File --> Open --> {spark dir}/pom.xml --> Open File or Project

**3.2 修改Maven数据源为maven 3.6.3**

**3.3 项目中引入Scala SDK**

> File --> Project Structure...

![01.IDEA编译运行Spark源码05.jpg](https://lilinchao.com/usr/uploads/2023/04/42992388.jpg)

> 选择Global Libraries --> 点击【+】 --> 选择 Scala SDK

![01.IDEA编译运行Spark源码06.jpg](https://lilinchao.com/usr/uploads/2023/04/2756512899.jpg)

> 选择 2.12.15版本的SDK

![01.IDEA编译运行Spark源码07.jpg](https://lilinchao.com/usr/uploads/2023/04/1586009187.jpg)

> 选择Choose Modules

![01.IDEA编译运行Spark源码21.jpg](https://lilinchao.com/usr/uploads/2023/04/1336597087.jpg)

此处如果本地安装有该版本的可以选择本地安装的。

**3.4 配置`ANTLR V4`插件**

**（1）搜索文件**

> 快捷键Ctrl + N --> 搜索【SqlBase.g4】

![01.IDEA编译运行Spark源码08.jpg](https://lilinchao.com/usr/uploads/2023/04/1050848563.jpg)

**（2）配置ANTLR**

![01.IDEA编译运行Spark源码09.jpg](https://lilinchao.com/usr/uploads/2023/04/1653504902.jpg)

**（3）设置Language为Java**

![01.IDEA编译运行Spark源码10.jpg](https://lilinchao.com/usr/uploads/2023/04/1442651489.jpg)

**（4）生成gen目录**

![01.IDEA编译运行Spark源码11.jpg](https://lilinchao.com/usr/uploads/2023/04/1132300645.jpg)

**（5）配置gen目录**

> 选择gen目录 --> Mark Directory as --> Sources Root

![01.IDEA编译运行Spark源码12.jpg](https://lilinchao.com/usr/uploads/2023/04/3893295668.jpg)

**3.5 修改Scala Compile Server**

> Settings --> Build,Execution,Deployment --> Compiler --> Scala Compiler --> Scala Compile Server

![01.IDEA编译运行Spark源码13.jpg](https://lilinchao.com/usr/uploads/2023/04/1506247760.jpg)

在编译之前这个配置一定要记得改，不然编译后在运行代码时会报错JDK兼容问题。

**3.6 修改编码格式**

> 将编码格式修改为UTF-8

![01.IDEA编译运行Spark源码14.jpg](https://lilinchao.com/usr/uploads/2023/04/3765466227.jpg)

**3.7 编译代码**

![01.IDEA编译运行Spark源码15.jpg](https://lilinchao.com/usr/uploads/2023/04/1560347505.jpg)

### 四、运行JavaWordCount

**4.1 Spark示例代码中WordCount地址**

```
org.apache.spark.examples.JavaWordCount
```

**4.2 运行JavaWordCount**

+ VM options传参：

```
  -Dspark.master=local
  ```

![01.IDEA编译运行Spark源码19.jpg](https://lilinchao.com/usr/uploads/2023/04/1466810664.jpg)

在Program arguments中传入要统计数据地址

**4.3 报错一**

```
object SqlBaseParser is not a member of package org.apache.spark.sql.catalyst.parser
import org.apache.spark.sql.catalyst.parser.SqlBaseParser._
```

![01.IDEA编译运行Spark源码16.jpg](https://lilinchao.com/usr/uploads/2023/04/3087910256.jpg)

**解决方法**

因为没有下载到antlr相关的包，尝试通过手动指定刷新进行下载

![01.IDEA编译运行Spark源码17.jpg](https://lilinchao.com/usr/uploads/2023/04/992127229.jpg)

![01.IDEA编译运行Spark源码18.jpg](https://lilinchao.com/usr/uploads/2023/04/3340173233.jpg)

**4.4 报错二**

```
org.apache.spark.SparkException: Could not find spark-version-info.properties
```

**解决方法**

+ 本地编译不会生成该文件，自行在对应路径的resources中创建，并写入version参数

```
version=3.2.3
```

**4.5 报错三**

```
[ERROR] Failed to execute goal org.apache.maven.plugins:maven-antrun-plugin:1.8:run (default) on project spark-core_2.12: An Ant BuildException has occured: Execute failed: java.io.IOException: Cannot run program "bash" (in directory "D:\Codes\idea2023\spark-3.2.3-src\core"): CreateProcess error=2, 系统找不到指定的文件。
[ERROR] around Ant part ...<exec executable="bash">... @ 4:27 in D:\Codes\idea2023\spark-3.2.3-src\core\target\antrun\build-main.xml
```

Spark需要在bash中执行命令，可以借助git bash 进行编译。

**解决方法**

配置git环境变量，配置完环境变量后重启IDEA。重新打包就可以了。

![01.IDEA编译运行Spark源码20.jpg](https://lilinchao.com/usr/uploads/2023/04/3814913221.jpg)

**4.6 报错四**

```
Exception in thread “main” java.lang.NoSuchMethodError: java.nio.ByteBuffer.flip()Ljava/nio/ByteBuffer
```

因为在高版本JDK上打包后放在低版本JRE环境上进行使用。

**解决方法**

修改Scala Compile Server中的JDK版本。

标签: Spark

非特殊说明，本博所有文章均为博主原创。

如若转载，请注明出处：https://www.lilinchao.com/archives/2847.html

上一篇 05.Sentinel热点key限流和系统规则

下一篇 Hbase之JavaAPI详细介绍

评论啦~

已有 2 条评论

22攻略

非常感谢你分享这篇文章，我从中学到了很多新的知识。
回复 2023-05-23 21:28
test

已读
回复 2023-05-03 14:10

IDEA编译运行Spark源码

评论啦~

已有 2 条评论

栏目分类

标签云

友情链接申请

IDEA编译运行Spark源码

 评论啦~

已有 2 条评论

 栏目分类

标签云

友情链接申请

评论啦~

栏目分类

标签云

友情链接申请