尚硅谷大数据技术之Spark基础解析
 (2019-11-05 14:05:24)
	
			
					(2019-11-05 14:05:24)		| 标签: itjava培训linux大数据尚硅谷 | 分类: 大数据学科 | 
第3章 案例实操 
Spark Shell仅在测试和验证我们的程序时使用的较多,在生产环境中,通常会在IDE中编制程序,然后打成jar包,然后提交到集群,最常用的是创建一个Maven项目,利用Maven来管理jar包的依赖。
3.1 编写WordCount程序 
1)创建一个Maven项目WordCount并导入依赖
 
 
 
 
 
 
 
 
 
scala-maven-plugin
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2)编写代码
package com.atguigu
import org.apache.spark.{SparkConf, SparkContext}
object WordCount{
 
//1.创建SparkConf并设置App名称
 
 
//2.创建SparkContext,该对象是提交Spark
App的入口
 
 
 
//4.关闭连接
 
 
}
3)打包到集群测试
bin/spark-submit \
--class WordCount \
--master spark://hadoop102:7077 \
WordCount.jar \
/word.txt \
/out
3.2 本地调试 
本地Spark程序调试需要使用local提交模式,即将本机当做运行环境,Master和Worker都为本机。运行时直接加断点调试即可。如下:
创建SparkConf的时候设置额外属性,表明本地执行:
val conf = new SparkConf().setAppName("WC").setMaster("local[*]")
 
出现这个问题的原因,并不是程序的错误,而是用到了hadoop相关的服务,解决办法是将附加里面的hadoop-common-bin-2.7.3-x64.zip解压到任意目录。

 加载中…
加载中…