创建Spark集群

首先在命令行下载该项目：

git clone https://github.com/gettyimages/docker-spark.git

在该目录下，输入compose up:

等待安装，最后会提示Worker和master都准备好了：
在浏览器中输入localhost:8080，出现如下界面，说明配置成功：
我们可以使用docker ps -a命令查看当前运行的容器：

集群使用与作业提交

集群使用

首先进入master的容器：
- docker exec -it docker-spark_master_1 /bin/bash
- 注意，使用exec命令进入容器时，在命令行输入exit不会退出容器，使用attach命令再次进入
查看Spark和Hadoop的版本：
- hadoop version
- spark shell
- 使用:quit退出spark-shell。
- 同样也可以查看python的版本，为3.5.3，已经很新了。

作业提交

在配置docker compose时，我们已经将本地文件./data挂载到容器中的/tmp/data下，因此，我们可以先在本地文件中放入需要文件，这里我放入了kmeans的文件：
在master节点中查看该文件：
这已经映射到了hdfs上，我们可以使用hdfs dfs -cat命令查看：
这样，我们就可以使用spark-submit运行我们的程序
在浏览器中查看运行的程序：

results matching ""

No results matching ""