加载中…
相册专辑
加载中…
博文
(2019-01-17 18:37)

不涉及 多个维度变量 ,效率都差不多 40 秒
SELECT  day,ad_plan_id, count(DISTINCT imei_md5) from
linkedme_dwb.behavior_log_dwb WHERE  day in ('20190115') and status=11 and ad_plan_id in ('8000014_10','8000019_75')
GROUP BY day,ad_plan_id

涉及多维度查询  (第一种写法) 2 分钟
SELECT  day,ad_plan_id, count(DISTINCT imei_md5) from
linkedme_dwb.behavior_log_dwb WHERE  day in ('20190116','20190115') and status=11 and ad_plan_id in ('8000014_10','8000019_75')
GROUP BY day,ad_plan_id

涉及多维度查询(第二种查法)1.5 分钟 子查询效率更高

SELECT day,ad_plan_id ,count(imei_md5) from 
(SELECT  day,ad_plan_id,  imei_md5  from
linkedme_dwb.behavior_log_dwb WHERE  day in ('20190116','20190115') and status=11 and ad_plan_id in ('8000014_10','80
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2019-01-14 12:38)

 

salt  'hotdata-11-*.hadoop.m8dc03.bigdata.linkedme.cc' cmd.run 'sudo pip install bs4'


阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2019-01-12 15:49)
select 'a-asa'  regexp  '[\u4e00-\u9fa5]'
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

杂谈

liunx 优化 

2. Linux系统层面上的配置调优
2.1. 文件系统的配置
a) 关闭文件在被操作时会记下时间戳:noatime和nodiratime
b) 选择I/O性能较好的文件系统(Hadoop比较依赖本地的文件系统)

2.2. Linux文件系统预读缓冲区大小
命令blockdev

2.3. 去除RAID和LVM

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2019-01-02 15:52)

sh /opt/cloudera/parcels/CDH/soft/spark-2.3.0/sbin/start-thriftserver.sh --master yarn \

 --queue default \

 --executor-memory 6g \

 --driver-memory 6g \

 --conf spark.shuffle.service.enabled=true \

 --conf spark.executor.memoryOverhead=2g \

 --conf spark.dynamicAllocation.enabled=true \

 --conf spark.broadcast.compress=

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2018-12-25 15:14)
{
  'defaultQueueSchedulingPolicy': 'fair',
  'queuePlacementRules': [
    {
      'create': false,
      'name': 'user'
    },
    {
      'name': 'default'
    }
  ],
  'queues': [
    {
      'name': 'root',
      'queues': [
        {
          'name': 'linke',
          'queues': [],
          'schedulablePropertiesList': [
            {
              'maxResources': {
                'memory': 4300800,
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2018-12-13 14:58)

插件下载位置:http://archive.cloudera.com/gplextras5/parcels/5.14.0/
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2018-12-13 14:25)
1.修改dfs.datanode.max.transfer.threads = 4096 (如果运行hbase的话建议为16384),指定用于在DataNode间传输block数据的最大线程数,老版本的对应参数为dfs.datanode.max.xcievers

2.修改dfs.datanode.balance.bandwidthPerSec  = 31457280 ,指定DataNode用于balancer的带宽为30MB,这个示情况而定,如果交换机性能好点的,完全可以设定为50MB,单位是Byte,如果机器的网卡和交换机的带宽有限,可以适当降低该速度,默认是1048576(1MB)

3.修改dfs.datanode.balance.max.concurrent.moves = 50,指定DataNode上同时用于balance待移动block的最大线程个数,这个值默认是5

4.如果配置没生效或者不合理的话,Balancer会有如下警告信息:

16/09/14 10:10:45 WARN balancer.Dispatcher: Failed to move blk_2056340845_2915024 with size=142227625 from 192.168.1.48:50010:DISK to 192.168.1.37:50010:DISK through 192.168.1.40:50010: Got error, status message opReplaceBlock BP-457606559-192.168.1.30-1258625319448:blk_2056340
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2018-12-13 14:19)
标签:

365

dfs dfs -setfacl -R -m user:user1:rwx  /common/db/

hdfs dfs -setfacl -R -m user:user2:rwx  /common/db/

hdfs dfs -getfacl  /common/db/

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2018-11-26 13:22)
Hbase 迁移过程
首先确认hbase 开启快照功能 
 <</span>property>     <</span>
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
个人资料
须冇
须冇
  • 博客等级:
  • 博客积分:0
  • 博客访问:2,520
  • 关注人气:0
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
图片播放器
评论
加载中…
留言
加载中…
访客
加载中…
  

新浪BLOG意见反馈留言板 电话:4006900000 提示音后按1键(按当地市话标准计费) 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

新浪公司 版权所有