加载中…
个人资料
为公-围攻
为公-围攻
  • 博客等级:
  • 博客积分:0
  • 博客访问:2,168
  • 关注人气:29
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

数据立方体(dataCube)

(2016-04-13 09:54:08)
分类: 计算机散文

数据立方体(dataCube

数据立方体(dataCube)是一种用于数据分析和索引的技术架构,针对大数据的处理利器,可以对元数据进行任意多关键字实时索引。通过数据立方对元数据进行分析之后,可以大大加速数据的查询和检索效率。

数据立方是凌驾于数据存储层和数据库系统之上的,通过数据立方解析后,可以大大增加数据查询和检索等业务,可以让系统平台具备数据实时入库,实时查询,查询结果实时传输等优势。

数据立方的体系架构

http://s8/mw690/002RSgYjgy70Sbl1GpV57&690

数据立方的结构分为用户接口、索引、作业生成器、元数据管理、并行计算架构、分布式文件系统等部分。数据立方可以使用HDFScStore作为底层存储系统,cStore是一个主从结构的分布式文件系统,不仅具有HDFS的高吞吐率、高读写性能等特征,还支持HDFS所不具备的对文件修改等功能,并且支持POXIS接口。

分布式索引

数据立方引入一种高效的分布式索引机制,不同于并行数据库的shared-nothingshared-disk架构,数据立方的数据文件与索引文件都存放在分布式文件系统之上。

http://s4/mw690/002RSgYjgy70SbkYGvVe3&690

 

数据入库的同时B树索引在内存中同步生成,B树种的叶子节点存储的是数据文件路径与记录在文件中的偏移量,在B树种的叶子节点达到设置上限后,索引将被序列化到分布式文件系统之上,在根据条件进行单表查询的时候,job被提交到并行计算框架,master节点首先分析该表的索引文件根据索引文件所在的节点将task发送到相应的节点,每个节点在查询本地的索引文件之后,将符合条件的数据文件路径+偏移量打包成task根据数据文件位置进行再次分发,在数据文件中的记录查询出来之后将结果返回。

         数据立方大数据一体机

         数据立方大数据一体机是一种处理海量数据的高效分布式软硬件集合的云处理平台,该平台可以从TB乃至PB级的数据中挖掘出有用的信息,并对海量信息进行快捷、高效的处理。平台支持100GBps以上量级的数据流实时索引,秒级响应客户请求,秒级完成数据处理、查询和分析工作。平台可以对入口数据进行实时索引,对数据进行分析、清理、分割,并将其存储在云存储系统上,不仅在入库和索引时具有非常高的性能优势,还可以支持数据深度挖掘和商业智能分析等业务。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有