标签:
云计算雷万云it |
分类: 雷博士新书云计算 |
- 摘要:《云计算:企业信息化建设策略与实践》第3章云计算的体系及关键技术,本章论述云计算的体系及这些关键技术,以便我们系统地认识、掌握云计算体系。本节为大家介绍海量数据分布存储技术。
3.6
为保证高可用、高可靠和经济性,云计算采用分布式存储的方式来存储数据,采用冗余存储的方式来保证存储数据的可靠性,即为同一份数据存储多个副本。
另外,云计算系统需要同时满足大量用户的需求,并行地为大量用户提供服务。因此,云计算的数据存储技术必须具有高吞吐率和高传输率的特点。
云计算系统由大量服务器组成,同时为大量用户服务,因此云计算系统采用分布式存储的方式存储数据,用冗余存储的方式保证数据的可靠性。云计算系统中广泛使用的数据存储系统是Google的GFS和Hadoop团队开发的GFS的开源实现HDFS。
GFS即Google文件系统(Google File System),是一个可扩展的分布式文件系统,用于大型的、分布式的对大量数据进行访问的应用。GFS的设计思想不同于传统的文件系统,是针对大规模数据处理和Google应用特性而设计的。它运行于廉价的普通硬件上,但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。
云计算的数据存储技术未来的发展将集中在超大规模的数据存储、数据加密和安全性保障以及继续提高I/O速率等方面。
GFS是一个管理大型分布式数据密集型计算的可扩展的分布式文件系统,它使用廉价的商用硬件搭建系统并向大量用户提供容错的高性能的服务。
GFS和普通的分布式文件系统的区别如表3-1所示。
表3-1
文 件 系 统 |
组件失败管理 |
文件大小 |
数据写方式 |
数据流和控制流 |
GFS |
不作为异常处理 |
少量大文件 |
在文件末尾 附加数据 |
数据流和 控制流分开 |
传统分布 式文件系统 |
作为异常处理 |
大量小文件 |
修改现存数据 |
数据流和控 制流结合 |
GFS系统由一个Master和大量块服务器构成。Master存放文件系统的所有元数据包括名字空间、存取控制、文件分块信息、文件块的位置信息等。GFS中的文件切分为64 MB的块进行存储。
在GFS文件系统中,采用冗余存储的方式来保证数据的可靠性。每份数据在系统中保存3个以上的备份。为了保证数据的一致性,对于数据的所有修改需要在所有的备份上进行,并用版本号的方式来确保所有备份处于一致的状态。
客户端不通过Master读取数据,避免了大量读操作使Master成为系统瓶颈。客户端从Master获取目标数据块的位置信息后,直接和块服务器交互进行读操作。
GFS的写操作将写操作控制信号和数据流分开,如图3-11 所示。
|
图3-11 |