数据立方体(dataCube)

分类: 计算机散文 |
数据立方体(dataCube)
数据立方体(dataCube)是一种用于数据分析和索引的技术架构,针对大数据的处理利器,可以对元数据进行任意多关键字实时索引。通过数据立方对元数据进行分析之后,可以大大加速数据的查询和检索效率。
数据立方是凌驾于数据存储层和数据库系统之上的,通过数据立方解析后,可以大大增加数据查询和检索等业务,可以让系统平台具备数据实时入库,实时查询,查询结果实时传输等优势。
数据立方的体系架构
http://s8/mw690/002RSgYjgy70Sbl1GpV57&690
数据立方的结构分为用户接口、索引、作业生成器、元数据管理、并行计算架构、分布式文件系统等部分。数据立方可以使用HDFS和cStore作为底层存储系统,cStore是一个主从结构的分布式文件系统,不仅具有HDFS的高吞吐率、高读写性能等特征,还支持HDFS所不具备的对文件修改等功能,并且支持POXIS接口。
分布式索引
数据立方引入一种高效的分布式索引机制,不同于并行数据库的shared-nothing和shared-disk架构,数据立方的数据文件与索引文件都存放在分布式文件系统之上。
http://s4/mw690/002RSgYjgy70SbkYGvVe3&690
数据入库的同时B树索引在内存中同步生成,B树种的叶子节点存储的是数据文件路径与记录在文件中的偏移量,在B树种的叶子节点达到设置上限后,索引将被序列化到分布式文件系统之上,在根据条件进行单表查询的时候,job被提交到并行计算框架,master节点首先分析该表的索引文件根据索引文件所在的节点将task发送到相应的节点,每个节点在查询本地的索引文件之后,将符合条件的数据文件路径+偏移量打包成task根据数据文件位置进行再次分发,在数据文件中的记录查询出来之后将结果返回。