加载中…
博文
标签:

杂谈

最近HDFS、HBase社区值得关注几个Feature:1)Trace系统。GoogleDapper系统提供了模块之间调用延迟的Trace,有利于快速定位性能问题。目前HDFS(HDFS-5274)HBase(HBASE-6449)在HTrace(https://github.com/cloudera/htrace)的基础上进行研发。2)HDFSNamespace插件化。https://issues.apache.org/jira/browse/HDFS-5324针对NameSpace天生JVM内存压力的问题,提出了抽象出统一的接口,丰富创新和改造。目前,该Jira的推动难度较大,但是该想法值得思考。基本原理可以参考:http://mail-archives.apache.org/mod_mbox/hadoop-hdfs-dev/201310.mbox/3)HBaseSupportforNamespaceshttp://hbase.apache.org/book/namespace.htmlhttp://www.binospace.com/index.php/the-hbase-isolation-technology/

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2013-03-21 23:07)
标签:

hadoop后时代

it

分类: architecture




阅读  ┆ 评论  ┆ 转载 ┆ 收藏 

Region是HBase的资源管理单位,在Region的生命周期内,一个Region迁移会发生在如下的情况下:
1)HMaster的Load Balance,造成部分Region在RS之间迁移。默认使用了
org.apache.hadoop.hbase.master.DefaultLoadBalancer,仅仅考虑RS上Region个数的分配的均衡性。

2)Region Split过程。这部分内容可以参考
http://blog.sina.com.cn/s/blog_4a1f59bf01018tu4.html

3) RS Offline过程-〉LOG Split过程-〉Region迁移。

 

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
Ubuntu10.04的内核使用2.6.32,Cgroups没有被内核默认enable,考虑到目前内核已经更新到3.0.0,索性进行了一次内核的升级工作。
步骤如下:
1)sudo apt-cache search linux-image
选择自己喜欢的内核版本,本实验中直接选择了3.0.0-23-generic
2)sudo apt-get install linux-image-3.0.0-23-generic
3) 安装完毕之后,马上升级配套环境软件。
sudo apt-get upgrade
4)重启机器
sudo reboot
ps: 如果你的机器成功了,congratulations!下面的无须再看了。
----------------------------------------------分割线---------------------------------------------------------
大部分情况下,NVidia会出现问题,造成整个系统出现low-performace gdm.
此时,我尝试了很多方案,目前只找到一种可行的方案,解决方案如下:
1)到NVidia.com上下载最新版本的显卡驱动。
http://www.nvidia.com/Download/index.aspx
目前经过测试,linux_x86_64的arch上,linux-kernel-3.0.0-23匹配的版本是:
 NVIDIA-Linux-x86_64-310.19.run
2)Ctrl + Alt + F1回退到
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

hbase

wal

it

分类: 海量数据存储与处理

WAL(Write-Ahead-Log)HBaseRegionServer在处理数据插入和删除的过程中用来记录操作内容的一种日志。在每次PutDelete等一条记录时,首先将其数据封装成〉,appendRegionServer对应的 HLog文件的过程。它有几个重要的特点:



阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
对于一个曾经运维过几百个节点的HBase集群的运维人员,并且Request每秒在5w以上,一定遇到过如下类似的问题。
ZooKeeper服务在不停地报警指示在zookeeper的unassigned路径由一些节点在会一直存在,而且它的版本在不断增加。此时,HRegionServer和HMaster都会打印大量log,而且会持续给ZooKeeper带来压力,另外整个HBase集群没有报告出现任何Region offline的现象。如果你也是遇到同样的问题,那么请继续看本文的内容。
背景:
注册到zookeeper的unassgined路径下的节点,是处于Transition状态的Region,这主要有如下几种:
 public enum State {
      OFFLINE,        // region is in an offline state
      PENDING_OPEN,   // sent rpc to server to open but has not begun
      OPENING,        // server has begun to open but not yet done
      OPEN,         &n
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 

在HBase中,表格的Rowkey按照字典排序,Region按照RowKey设置split point进行shard,通过这种方式实现的全局、分布式索引,成为了其成功的最大的砝码。图1显示了HBase表格的Rowkey切分与Region的部署关系图。

图1: HBase Rowkey-Region 关系图


然而,随着在HBase系统上应用的驱动,人们发现Global-Rowkey-Indexing不再满足应用的需求。单一的通过Rowkey检索数据的方式,不再满足更多应用的需求,人们希望像SQL一样检索数据,select * from table where col=val。可是,HBase之前的定位是大表的存储,要进行这样的查询,往往是要通过类似Hive、Pig等系统进行全表的MapReduce计算,这种方式既浪费了机器的计算资源,又因高延迟使得应用黯然失色。于是,在业界和社区,针对HBase Secondary Indexing的

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
 
Hbase web展示界面在Release中找不到对应的源代码,我们只能看到Class文件。所以,对于想添加监控信息的同学来说,这一点是远远不够的。那么HBase的web界面是如何组织的呢?
1、在HMaster和HRegionServer中定
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
ZZ From http://qing.weibo.com/2294942122/88ca09aa3300221n.html
Google Spanner原理- 全球级的分布式数据库

Google Spanner简介

Spanner 是Google的全球级的分布式数据库 (Globally-Distributed Database) 。Spanner的扩展性达到了令人咋舌的全球级,可以扩展到数百万的机器,数已百计的数据中心,上万亿的行。更给力的是,除了夸张的扩展性之外,他还能 同时通过同步复制和多版本来满足外部一致性,可用性也是很好的。冲破CAP的枷锁,在三者之间完美平衡。

Google Spanner原理- 全球级的分布式数据库

Spanner是个可扩展,

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

hbase

分类: 海量数据存储与处理
问题和现象:

这是一个连锁反应:
1)RegionServer在遇到'Stop-The-World' GC时,会停止一切工作,这样与Zookeeper保持的心跳,就会停止。
2)Zookeeper在没有收到注册节点的心跳时,就会删除对应rs对应节点。
3)HMaster的ServerManager会发现这个RegionServer出现了问题,然后交由ServerShutdownHandler处理。
4)HMaster的SplitLogManager和RegionServer的SplitLogWorker组成Master-Slave结构,对HMaster
认定Dead的RegionServer的节点进行处理。
 HLOG => {按照Region分割成不同的edits文件},具体内容可以查看:http://www.cloudera.com/blog/2012/07/hbase-log-splitting/
5)HMaster的AssignmentManager把HLog处理完成的Region分配给一个RegionServer,RegionServer在接到Open Region的请求之后,利用分割出来的edits,实现HLog Replay,将其加载到MemStore,并且flush成一个文件。
6)RegionServer上的所有Region在其它RegionServer上提供服务。
7)RegionServer FullGC结束,然后正常与HM
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
个人资料
klose
klose
  • 博客等级:
  • 博客积分:0
  • 博客访问:167,908
  • 关注人气:119
  • 荣誉徽章:
Binospace的空间
申请了一个独立域名Binospace
,欢迎大家关注订阅。 klose
新浪微博
友情链接

Binospace

我的独立技术博客

  

新浪BLOG意见反馈留言板 不良信息反馈 电话:4006900000 提示音后按1键(按当地市话标准计费) 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

新浪公司 版权所有