spark flatmap_李旭瑞_ECNU

http://blog.sina.com.cn/u/1935616272

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

spark flatmap

(2018-03-19 10:29:28)


总结：
- Spark中map函数会对每一条输入进行指定的操作，然后为每一条输入返回一个对象；
- 而flatMap函数则是两个操作的集合——正是“先映射后扁平化”：
操作1：同map函数一样：对每一条输入进行指定的操作，然后为每一条输入返回一个对象
操作2：最后将所有对象合并为一个对象

val rdd = sc.parallelize(List("coffee panda","happy panda","happiest panda party"))

输入rdd.map(x=>x).collect
结果res9: Array[String] = Array(coffee panda, happy panda, happiest panda party)

输入rdd.flatMap(x=>x.split(" ")).collect
结果:res8: Array[String] = Array(coffee, panda, happy, panda, happiest, panda, party)



最经典的应用：Spark版wordcount，并根据词频进行排序line.flatMap(_.split(",")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).repartition(1).saveAsTextFile(args(1))





实际使用场景1

这个场景是我曾经在写代码过程中遇到的难题，在字符串中如何统计相邻字符对出现的次数。意思就是如果有A;B;C;D;B;C字符串，则（A,B）,(C,D),(D,B)相邻字符对出现一次，(B,C)出现两次。 
如有数据

A;B;C;D;B;D;C
B;D;A;E;D;C
A;B
1
2
3
统计相邻字符对出现次数代码如下

data.map(_.split(";")).flatMap(x=>{
      for(i<-0 until x.length-1) yield (x(i)+","+x(i+1),1)
    }).reduceByKey(_+_).foreach(println)

        
输出结果为

(A,E,1)
(E,D,1)
(D,A,1)
(C,D,1)
(B,C,1)
(B,D,2)
(D,C,2)
(D,B,1)
(A,B,2)

此例子就是充分运用了flatMap的扁平化功能。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：scala var和val定义mutable集合与immutable集合的区别

后一篇：两种比较新奇的异常检测算法

新浪BLOG意见反馈留言板　欢迎批评指正