加载中…
博客等级:
博客访问:1,314,698

惠普实验室在HP Discover Frankfurt上宣布对HP StoreAll的贡献

2013-01-21 12:09:26
标签:

低成本

贡献

it

快速查询

storeall

分类: 科技创新

    编者按:惠普实验室研究人员Kim Keeton和Brad Morrey 让我们深入了解惠普实验室如何开发技术,并将其转移到惠普产品上。12月4日,在法兰克福举行的HP Discover上,惠普公司宣布了采用“快速查询”(Express Query)的HP StoreAll,这是一个用于归档数据和对象存储的新存储产品。

              惠普实验室在HP <wbr>Discover <wbr>Frankfurt上宣布对HP <wbr>StoreAll的贡献


    StoreAll提供了巨大的规模(最大到1024个节点和16 petabyte的数据量),和低成本的存储(91美分/GB)。“快速查询”增加了一个惠普实验室开发的、可扩展的元数据数据库。“快速查询”与StoreAll相集成,可以自动捕获和存储文件系统属性,如文件大小和最后修改时间。此外,“快速查询”允许用户用自定义的属性标记文件——例如,一个动画工作室可以按照电影名或文件内容(“企鹅”)增加属性。采用REST风格的API,用户随后可以高效地发现与自定义或系统属性相匹配的文件。这个“通过搜索组织”的能力带给用户灵活性对存储在“快速查询”中的、基于元数据的存储空间、备份和分层策略进行管理。
   “快速查询”是基于惠普实验室的研究。我们早期工作的目标是针对在企业中管理非结构化信息。通过从非结构化信息,例如文本文档中提取结构化元数据并把它存放在一个集中式的、可搜索的数据库中,我们的目标是让新的信息管理应用成为可能,特别是用于知识工人和法律遵守。当我们最初的实验发现现有的交易型和No SQL数据库缺乏,我们决定开发我们自己的数据库。关键的要求是能够用一个可扩展的架构快速摄取大量的数据,并同时能够满足一个巨大查询的工作量,采用对被摄取数据查询的观察可以操作该数据的稍旧版本。
    我们采用一个可扩展的、流水线式的、分布式数据库实现了这些目标,该数据库针对大量的写入吞吐量进行了优化并同时只需要适度的计算和I/O需求。它的设计把更新摄取通道从读查询引擎中分离出来:通过通道更新流量,与旧数据进行排序和合并,并通过读取通道末端进行查询操作,随意地在通道的更早期阶段中读取数据,以获取更多最新结果。通道的各个阶段可以被独立地平行起来提供可扩展性。我们采用现有的惠普实验室技术——集团中称为 DataSeries——作为存储引擎,因为它采用内存内索引、数据压缩和平行读写以减少I/O需求。在我们发表在2012 EuroSys上的文章“在一个可扩展数据库中为性能交易新鲜度”中,我们证明了,根据使用需要,在查询结果的新鲜度和在一个可控的方式中摄取性能间进行权衡是可能的。
    当完成了原型,我们认识到这个技术对于应用是有用的,并远远超出了我们最初的用例。与HP Storage部门一起工作,我们确定了用于他们的可扩展归档文件和对象产品的元数据存储需求,并看到了一种自然的匹配。我们硬件化了我们的研究原型,开发了一个查询生成器以把REST风格API请求翻译为高效的查询,并与HP Storage部门在世界各地进行合作以建立需要在StoreAll上发布的生态系统。
   “快速查询”在StoreAll环境中工作得很好,因为它能够跟得上在一个可扩展文件系统中跟踪所有元数据操作所需要的非常大的摄取率,并因为它提供了一个引擎,以今天还不可能的方式深入了解什么在系统里。举一个简单的例子,我们进行一个比较,分别运行Linux命令“find”和相同的“快速查询”请求,在一个有5亿个文件的系统中以发现一个在过去4个小时中进行了修改的小文件集(大约2000个文件)。“find”用了42个小时,而“快速查询”只用了1.4秒——快了大约10万倍!“快速查询”把不切实际变成了实际的:用户可以通过交互方式发出查询,了解在他们的系统中正在发生着什么。
    业内分析人士质疑HP的创新能力。我们的研究经验以及与HP Storage部门的合作,采用“快速查询”建立StoreAll证明他们是错误的。我们期待寻找未来的机会,利用我们的研究为惠普公司提供进一步的胜利。

原文链接:http://h30507.www3.hp.com/t5/Innovation-HP-Labs/HP-Labs-contributions-to-HP-StoreAll-announced-at-HP-Discover/ba-p/128337 

阅读 评论 收藏 转载 喜欢 打印举报
发评论

       

    相关阅读
    加载中,请稍后
      

    新浪BLOG意见反馈留言板 不良信息反馈 电话:4006900000 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有