加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

hive中只有map没有reduce的任务优化

(2015-02-02 14:55:50)
标签:

hql

hive

优化

map

分类: 点滴收集
hive中在做查询时,经常会碰到这种问题,任务只起map不起reduce;
环境:
hive 
100出头的节点
7T左右的内存
basic表有300-400个分区,总数据量在6亿-7亿;
如下sql:
select * from  basic_sum where user_log_acct='abcd';
这个sql只会起一个job,这个job只有map,没有reduce;输入数据较多,会比较慢;
可以对表进行distribute by,强制让其产生reduce;
优化后sql如下:
select * from  basic_sum where user_log_acct='abcd' distribute by rand(1234);
这个sql会产生reduce;
具体效率如下:

http://s6/mw690/003n7xtBzy6PF6KyeRnf5&690
上图是优化前,下图是优化后,效率还是有明显的提升的;

0

阅读 收藏 喜欢 打印举报/Report
前一篇:something
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有