尚硅谷大数据技术之Spark基础解析

标签:
itjava培训linux大数据尚硅谷 |
分类: 大数据学科 |
第3章 案例实操
Spark Shell仅在测试和验证我们的程序时使用的较多,在生产环境中,通常会在IDE中编制程序,然后打成jar包,然后提交到集群,最常用的是创建一个Maven项目,利用Maven来管理jar包的依赖。
3.1 编写WordCount程序
1)创建一个Maven项目WordCount并导入依赖
scala-maven-plugin
2)编写代码
package com.atguigu
import org.apache.spark.{SparkConf, SparkContext}
object WordCount{
//1.创建SparkConf并设置App名称
//2.创建SparkContext,该对象是提交Spark
App的入口
//4.关闭连接
}
3)打包到集群测试
bin/spark-submit \
--class WordCount \
--master spark://hadoop102:7077 \
WordCount.jar \
/word.txt \
/out
3.2 本地调试
本地Spark程序调试需要使用local提交模式,即将本机当做运行环境,Master和Worker都为本机。运行时直接加断点调试即可。如下:
创建SparkConf的时候设置额外属性,表明本地执行:
val conf = new SparkConf().setAppName("WC").setMaster("local[*]")
出现这个问题的原因,并不是程序的错误,而是用到了hadoop相关的服务,解决办法是将附加里面的hadoop-common-bin-2.7.3-x64.zip解压到任意目录。