分类: Hadoop Hive |
Hive中在做多表关联时,由于Hive的SQL
标签:
hivehadoop杂谈 |
分类: Hadoop Hive |
我想说的SELECT TOP
N是取最大前N条或者最小前N条。
Hive提供了limit关键字,再配合order
by可以很容易地实现
标签:
haoophivemap数分片split |
分类: Hadoop Hive |
Hadoop中在计算一个JOB需要的map数之前首先要计算分片的大小。计算分片大小的公式是:
标签:
hive转义通配buglike |
分类: Hadoop Hive |
在Hive开发过程中遇到这样一个问题:
例如表T001的字段col1里面存有’ABC\DEF’
标签:
oraclenotinexists性能效率子查询杂谈 |
分类: Oracle |
在网上搜了下关于oracle中not exists和not in性能的比较,发现没有描述的太全面的,可能是问题太简单了,达人们都不屑于解释吧。于是自己花了点时间,试图把这个问题简单描述清楚,其实归根结底一句话:not in性能并不比not exists差,关键看你用的是否正确。
标签:
hivemapreducetransform连续数字序列杂谈 |
分类: Hadoop Hive |
标签:
hiveudf分析函数row_number |
分类: Hadoop Hive |
hive> desc row_number_test;
OK
id1
id2
age
score
name
hive> select * from row_number_test;
OK
2
1
1
2
标签:
oracle分区表全局索引局部索引杂谈 |
分类: Oracle |
标签:
hadoophivepartitionname分区表动态分区静态分区 |
分类: Hadoop Hive |
标签:
oraclegreemplumfullouterjoin外连接 |
分类: Greenplum |
本周ETL测试方法讨论时Bill提到了一种full outer join的替代写法,由于full outer
join是一种比较低效的操作,所以如果有高效的替代写法,自然非常好,于是我对full outer
join的一些替代写法做了一下总价,由于实验的篇幅过多,我这里只给出结论,会显得更清晰。 先说Oracle数据库: 1.常规写法: select * from t01 full join t02 on t01.id=t02.id; 这是常规写法,没有什么好说的。 2.网上看到的一种替代写法: select * from t01,t02 where t01.id=t02.id(+) union select * from t01,t02 where t02.id=t01.id(+); 就是用一个左外连接union一个又外连接。我是坚决反对这种写法的。 首先,这种写法与full outer join并不完全等价:如果t01中有重复记录或者t02中有重复记录,full outer join并不会去重,但写法2会去重。 其次,这种写法的效率很低,其实 full join 在内部执行时并不需要排序,但是写法2使用了union,要做排序去重操作,这个操作是效率很低的。 3.我之前总结的一种等 |