创建Spark集群

  • 首先在命令行下载该项目:

    • git clone https://github.com/gettyimages/docker-spark.git
      
  • 在该目录下,输入compose up:

    • docker21
  • 等待安装,最后会提示Worker和master都准备好了:
    • docker22
  • 在浏览器中输入localhost:8080,出现如下界面,说明配置成功:
    • docker23
  • 我们可以使用docker ps -a命令查看当前运行的容器:
    • docker24

集群使用与作业提交

集群使用

  • 首先进入master的容器:
    • docker exec -it docker-spark_master_1 /bin/bash
    • 注意,使用exec命令进入容器时,在命令行输入exit不会退出容器,使用attach命令再次进入
    • docker25
  • 查看Spark和Hadoop的版本:
    • hadoop version
      • docker26
    • spark shell
      • docker27
    • 使用:quit退出spark-shell。
    • 同样也可以查看python的版本,为3.5.3,已经很新了。

作业提交

  • 在配置docker compose时,我们已经将本地文件./data挂载到容器中的/tmp/data下,因此,我们可以先在本地文件中放入需要文件,这里我放入了kmeans的文件:
    • docker28
  • 在master节点中查看该文件:
    • docker29
  • 这已经映射到了hdfs上,我们可以使用hdfs dfs -cat命令查看:
    • docker210
  • 这样,我们就可以使用spark-submit运行我们的程序
  • 在浏览器中查看运行的程序:
    • docker212

results matching ""

    No results matching ""