加载中…
相册专辑
加载中…
博文
(2018-12-13 14:58)

插件下载位置:http://archive.cloudera.com/gplextras5/parcels/5.14.0/
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2018-12-13 14:25)
1.修改dfs.datanode.max.transfer.threads = 4096 (如果运行hbase的话建议为16384),指定用于在DataNode间传输block数据的最大线程数,老版本的对应参数为dfs.datanode.max.xcievers

2.修改dfs.datanode.balance.bandwidthPerSec  = 31457280 ,指定DataNode用于balancer的带宽为30MB,这个示情况而定,如果交换机性能好点的,完全可以设定为50MB,单位是Byte,如果机器的网卡和交换机的带宽有限,可以适当降低该速度,默认是1048576(1MB)

3.修改dfs.datanode.balance.max.concurrent.moves = 50,指定DataNode上同时用于balance待移动block的最大线程个数,这个值默认是5

4.如果配置没生效或者不合理的话,Balancer会有如下警告信息:

16/09/14 10:10:45 WARN balancer.Dispatcher: Failed to move blk_2056340845_2915024 with size=142227625 from 192.168.1.48:50010:DISK to 192.168.1.37:50010:DISK through 192.168.1.40:50010: Got error, status message opReplaceBlock BP-457606559-192.168.1.30-1258625319448:blk_2056340
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2018-12-13 14:19)
标签:

365

dfs dfs -setfacl -R -m user:user1:rwx  /common/db/

hdfs dfs -setfacl -R -m user:user2:rwx  /common/db/

hdfs dfs -getfacl  /common/db/

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2018-11-26 13:22)
Hbase 迁移过程
首先确认hbase 开启快照功能 
 <</span>property>     <</span>
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 

SELECT NTILE(10) OVER (ORDER BY _c0) as part, _c0 as imei from csv.`pwd` ;

平均分成 10 分 然后 执行 where rn = [1 -10 ]

问题 1 : 由于集群资源有限 ,所以 修改 切片数量 ​NTILE(100000)
问题 2 :程序分区取出 parition  between 0  and 10000 [....] ,切记不能用 between '0' and '10000' ​

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
Spark  DataFrame 

1.  DataFrame 数据源 可以是
    Hive / Csv / json / RDBMS / XML / Parquet / Cassandra /RDD /Pandas Dataframe 

   

2. 第一步 
     from pyspark import SparkContext
sc = SparkContext()
sqlContext = SQLContext(sc)
3. 
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

365

1.首先设置 spark.scheduler.mode 为 FAIR 模式,首先 spark.scheduler.mode 有 
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2018-08-07 10:47)
在做 spark 应用程序的优化的时候,从下面几个点出发就够了:

  • 为什么:因为你的资源有限,因为你的应用上生产环境了会有很多不稳定的因素,在上生产前做好优化和测试是唯一一个降低不稳定因素影响的办法;
  • 怎么做:web ui + log 是做优化的倚天剑和屠龙刀,能掌握好这两点就可以了;
  • 何时做:应用开发成熟时,满足业务要求时,就可以根据需求和时间安排开始做了;
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2018-08-01 18:22)
标签:

365

分类: 大数据/云计算

CDH cloudera-cm5.14.0 集群离线安装

关于CDHCloudera Manager

 

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2018-08-01 18:22)
标签:

365


1 . spark-shell 调试
   编辑 bin/spark-shell , 添加 
   export SPARK_SUBMIT_OPTS = $FWDIR/bin/spark-submit spark-shell '$@' --class org.apache.spark.repl.Main
2 . 说明内容
  spark-shell 是对spark-submit 的一层封装 
  摘录spark-shell 脚本
   function main() {
      if $cygwin; then
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
个人资料
须冇
须冇
  • 博客等级:
  • 博客积分:0
  • 博客访问:2,234
  • 关注人气:0
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
图片播放器
评论
加载中…
留言
加载中…
访客
加载中…
  

新浪BLOG意见反馈留言板 电话:4006900000 提示音后按1键(按当地市话标准计费) 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

新浪公司 版权所有