加载中…
相册专辑
加载中…
博文
(2019-03-11 11:06)

常识 : 

# 总核数 = 物理CPU个数 X 每颗物理CPU的核数 

# 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数 

# 查看物理CPU个数cat /proc/cpuinfo| grep 'physical id'| sort| uniq| wc -

阅读  ┆ 评论  ┆ 禁止转载 ┆ 收藏 
(2019-03-07 10:58)



agent1.sources.media_source.type = org.apache.flume.source.kafka.KafkaSource

agent1.sources.media_source.channels = media_channel

agent1.sources.media_source.batchSize = 10000

agent1.sources.media_source.batchDurationMillis = 2000

agent1.sources.media_source.kafka.bootstrap.servers=192.168.252.34:9092,192.168.252.35:9092,192.168.252.36:9092

agent1.sources.media_source.kafka.topics = mediaSupplyAdApps

agent1.sources.media_source.kafka.consumer.group.id = flume_media_consumer

agent1.sources.media_source.interceptors = i1

agent1.sources.media_source.interceptors.i1.type = host



agent1.channels.media_channel.type = file

agent1.channels.media_channel.checkpointDir = /data1/dev/flu

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2019-02-21 13:58)
标签:

365

import os
import sys
spark_name = os.environ.get('SPARK_HOME',None)
if not spark_name:
    raise ValueErrorError('spark环境没有配置好')
sys.path.insert(0,os.path.join(spark_name,'python'))
sys.path.insert(0,os.path.join(spark_name,'python/lib/py4j-0.10.4-src.zip'))
exec(open(os.path.join(spark_name,'python/pyspark/shell.py')).read()
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2019-02-20 11:32)
1. add path 

export SPARK_HOME=/opt/cloudera/parcels/SPARK2/lib/spark2

export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.7-src.zip:$SPARK_HOME/python/lib/pyspark.zip:$PYTHONPATH


2.代码部分

from __future__ import print_function

import sys

from random import random

from operator import add

from pyspark.sql import SparkSession


spark = SparkSession \

    .builder \

 

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2019-01-17 18:37)

不涉及 多个维度变量 ,效率都差不多 40 秒
SELECT  day,ad_plan_id, count(DISTINCT imei_md5) from
linkedme_dwb.behavior_log_dwb WHERE  day in ('20190115') and status=11 and ad_plan_id in ('8000014_10','8000019_75')
GROUP BY day,ad_plan_id

涉及多维度查询  (第一种写法) 2 分钟
SELECT  day,ad_plan_id, count(DISTINCT imei_md5) from
linkedme_dwb.behavior_log_dwb WHERE  day in ('20190116','20190115') and status=11 and ad_plan_id in ('8000014_10','8000019_75')
GROUP BY day,ad_plan_id

涉及多维度查询(第二种查法)1.5 分钟 子查询效率更高

SELECT day,ad_plan_id ,count(imei_md5) from 
(SELECT  day,ad_plan_id,  imei_md5  from
linkedme_dwb.behavior_log_dwb WHERE  day in ('20190116','20190115') and status=11 and ad_plan_id in ('8000014_10','80
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2019-01-14 12:38)

 

salt  'hotdata-11-*.hadoop.m8dc03.bigdata.linkedme.cc' cmd.run 'sudo pip install bs4'


阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2019-01-12 15:49)
select 'a-asa'  regexp  '[\u4e00-\u9fa5]'
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

杂谈

liunx 优化 

2. Linux系统层面上的配置调优
2.1. 文件系统的配置
a) 关闭文件在被操作时会记下时间戳:noatime和nodiratime
b) 选择I/O性能较好的文件系统(Hadoop比较依赖本地的文件系统)

2.2. Linux文件系统预读缓冲区大小
命令blockdev

2.3. 去除RAID和LVM

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2019-01-02 15:52)

sh /opt/cloudera/parcels/CDH/soft/spark-2.3.0/sbin/start-thriftserver.sh --master yarn \

 --queue default \

 --executor-memory 6g \

 --driver-memory 6g \

 --conf spark.shuffle.service.enabled=true \

 --conf spark.executor.memoryOverhead=2g \

 --conf spark.dynamicAllocation.enabled=true \

 --conf spark.broadcast.compress=

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2018-12-25 15:14)
{
  'defaultQueueSchedulingPolicy': 'fair',
  'queuePlacementRules': [
    {
      'create': false,
      'name': 'user'
    },
    {
      'name': 'default'
    }
  ],
  'queues': [
    {
      'name': 'root',
      'queues': [
        {
          'name': 'linke',
          'queues': [],
          'schedulablePropertiesList': [
            {
              'maxResources': {
                'memory': 4300800,
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
个人资料
须冇
须冇
  • 博客等级:
  • 博客积分:0
  • 博客访问:3,094
  • 关注人气:0
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
图片播放器
评论
加载中…
留言
加载中…
访客
加载中…
  

新浪BLOG意见反馈留言板 电话:4006900000 提示音后按1键(按当地市话标准计费) 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

新浪公司 版权所有