【hive】orderby,sortby,distributeby,clusterby作用以及用法
(2018-08-25 18:38:27)分类: 大数据hadoop |
1. order by
2. sort by
3. distribute by和sort by一起使用
store:
mid | money | name |
AA | 15.0 | 商店1 |
AA | 20.0 | 商店2 |
BB | 22.0 | 商店3 |
CC | 44.0 | 商店4 |
执行hive语句:
select mid, money, name from store distribute by mid sort by
mid asc, money asc
我们所有的mid相同的数据会被送到同一个reducer去处理,这就是因为指定了distribute by
mid,这样的话就可以统计出每个商户中各个商店盈利的排序了(这个肯定是全局有序的,因为相同的商户会放到同一个reducer去处理)。这里需要注意的是distribute
by必须要写在sort by之前。
4. cluster by
select mid, money, name from store cluster by mid
select mid, money, name from store distribute by mid sort by
mid
select mid, money, name from store cluster by mid sort by
money
前一篇:【python】getopt模块
后一篇:【Qlick】变量控件