Hive中union与union all用法_润土识丁

http://blog.sina.com.cn/u/2828933444

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

Hive中union与union all用法

(2014-11-18 22:03:47)

标签：

union

unionall

分类： hadoop/hive

假设我们有一个表Student，包括以下字段与数据：

[c-sharp] view plain copy print ?

drop table student;
create table student
(
id int primary key,
name nvarchar2(50) not null,
score number not null
);
insert into student values(1,'Aaron',78);
insert into student values(2,'Bill',76);
insert into student values(3,'Cindy',89);
insert into student values(4,'Damon',90);
insert into student values(5,'Ella',73);
insert into student values(6,'Frado',61);
insert into student values(7,'Gill',99);
insert into student values(8,'Hellen',56);
insert into student values(9,'Ivan',93);
insert into student values(10,'Jay',90);
commit;

首先，我们来看一下UNION的例子：

[c-sharp] view plain copy print ?

SQL> select *
2 from student
3 where id<4
4 union
5 select *
6 from student
7 where id>2 and id<6
8 ;
ID NAME SCORE
---------- ------------------------------ ----------
1 Aaron 78
2 Bill 76
3 Cindy 89
4 Damon 90
5 Ella 73
SQL>

如果换成Union All连接两个结果集，则结果如下：

[c-sharp] view plain copy print ?

SQL> select *
2 from student
3 where id<4
4 union all
5 select *
6 from student
7 where id>2 and id<6
8 ;
ID NAME SCORE
---------- ------------------------------ ----------
1 Aaron 78
2 Bill 76
3 Cindy 89
3 Cindy 89
4 Damon 90
5 Ella 73
6 rows selected.

可以看到，Union和Union All的区别之一在于对重复结果的处理。

接下来，我们交换一个两个SELECT语句的顺序，看看结果是怎样的。

[c-sharp] view plain copy print ?

SQL> select *
2 from student
3 where id>2 and id<6
4 union
5 select *
6 from student
7 where id<4
8 ;
ID NAME SCORE
---------- ------------------------------ ----------
1 Aaron 78
2 Bill 76
3 Cindy 89
4 Damon 90
5 Ella 73
SQL> select *
2 from student
3 where id>2 and id<6
4 union all
5 select *
6 from student
7 where id<4
8 ;
ID NAME SCORE
---------- ------------------------------ ----------
3 Cindy 89
4 Damon 90
5 Ella 73
1 Aaron 78
2 Bill 76
3 Cindy 89
6 rows selected.

SQL> select *
  2  from student
  3  where id>2 and id<6
  4  union
  5  select *
  6  from student
  7  where id<4
  8  ;

ID NAME                                SCORE
---------- ------------------------------ ----------
         1 Aaron                                  78
         2 Bill                                   76
         3 Cindy                                  89
         4 Damon                                  90
         5 Ella                                   73

SQL> select *
  2  from student
  3  where id>2 and id<6
  4  union all
  5  select *
  6  from student
  7  where id<4
  8  ;

ID NAME                                SCORE
---------- ------------------------------ ----------
         3 Cindy                                  89
         4 Damon                                  90
         5 Ella                                   73
         1 Aaron                                  78
         2 Bill                                   76
         3 Cindy                                  89

6 rows selected.

可以看到，对于UNION来说，交换两个SELECT语句的顺序后结果仍然是一样的，这是因为UNION会自动排序。而UNION ALL在交换了SELECT语句的顺序后结果则不相同，因为UNION ALL不会对结果自动进行排序。

那么这个自动排序的规则是什么呢？我们交换一下SELECT后面选择字段的顺序（前面使用SELECT *相当于SELECT ID,NAME,SCORE），看看结果如何：

[c-sharp] view plain copy print ?