加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

企业大脑--数据的快速、廉价和受控

(2009-08-25 13:46:35)
标签:

电脑

备份系统

d2

索引

惠普

it

企业大脑--数据的快速、廉价和受控

-惠普实验室采用稀疏索引从根本上改善中小型企业的数据备份

 

我们大多数人来说,对家用电脑进行备份都做得不好,但这是件很容易的事情。我们可以把这个硬盘复制到第二个备份硬盘。

企业则面临大得多的任务,但是他们的数据的价值也是巨大的。他们愿意支付大笔金钱用于复杂的、自动化的数据备份系统和服务,部署称为重复数据删除的技术,以确保在每次备份时只记录新的数据。

夹在中间的是中小型企业(SMB)。他们没有庞大的IT预算,但正在产生越来越大的数据量。这些不断增加的数据是运营必不可少的,且包含了他们需要能够相对容易信息检索的信息。

直到现在,大多数中小企业更多采用个人电脑数据备份的方式,惠普实验室研究员Kave Eshghi说。“这种做法制造了大量的冗余,”他解释说,“因为你在对同样的东西周而复始地进行备份,这只是增加成本。”

现在,得益于惠普实验室的研究人员和惠普存储事业部的工程师的合作,中小企业有了一个可以负担的选择:一个新的快速、廉价和灵活的基于磁盘的备份设备产品线,可以以中小企业可以负担的预算进行重复数据删除。

 

数据索引的挑战

惠普公司新的StorageWorks D2D备份系统的秘密是一种新型、精密的重复数据删除方式,称为稀疏索引。

为了实现重复数据删除的工作,备份系统必须能够知道它是否已经拥有了任何特定的数据的副本,这意味着它需要有针对所有拥有数据的索引。
“挑战”,Eshghi说,“是你必须当数据以每秒数百兆字节的速度传输过来时时刻查看是否每一块数据已经在那里了。”

如果你把索引放在内存里,你可以快速查找并且避免了索引瓶颈。“但是,你就需要大量的内存,”Eshghi解释说:“这非常昂贵。”

把索引放在硬盘上并不好,因为硬盘的机械式磁头限制了其移动的速度,所以是一个无法接受的缓慢的系统。

惠普的解决办法依赖于对已有数据的索引进行采样。不是将每个索引项放在内存内进行比较,惠普的做法是每大约100项目中只保持一个在内存中,并将其余的放置在硬盘内。重复数据几乎总是会连续到达。换句话说,如果一块到达的数据流是一种重复的,很可能紧接着的多个数据块是重复的。稀疏索引利用这一现象,通过在磁盘上顺序存放相邻的哈希存储块。因此,在内存索抽样中的一次‘击中’可以指引在系统在一个磁盘区域上,那里可以会发现很多重复的数据。

 “你可以在整个备份上分摊进行这个索引所产生的速度和内存费用”Mark Lillibridge说,他和Eshghi以及同事Vinay Deolalikar 组成了惠普实验室的D2D团队。 “底线是”,他说,“索引数相同数量的数据,我们使用的内存是我们最接近的竞争对手的一半,这意味着我们的产品便宜很多。”

事实上,当惠普在2008年推出第一款D2D产品时,他们的价格只是同等性能的竞争产品的四分之一。

 

为业务提供解决方案

不算D2D项目,惠普存储部门与惠普实验室在磁带技术方面有很长的合作历史,重复数据删除技术开发团队的首席工程师Graham Perry称。

 “因此,当我们开始寻找需要重复数据删除的技术时”Perry回忆说,“这对我们来说很自然的要把这一合作关系扩展到一个新的领域。”

Eshghi和Lillibridge一直为解决数字化电影制作中的一项关联的问题而工作,即如何在跨大西洋的电缆上传输千兆字节的数据,以远程处理高品质数字动画画面。在这种情况下,他们寻求避免传送冗余数据,而不是避免存储冗余数据。“我们有些文件需要传输9个小时,” Lillibridge记得。“但是,采用了重复数据删除,我们可以在一分钟内完成。”这一经验被证明是非常宝贵的,Perry说。“但是,实验室的工程师也可以只是坐下来,拿出以前从未有人考虑过的全新的东西,”他补充说,“这是对我们是一个巨大的优势。”

 

扩大服务

该小组计划继续合作了一段时间。还有很多的事要做,他们说。

 “中小型企业客户不得不管理比我们预计还要多很多的数据,”Perry指出。“他们要不得不对数据进行更长时间的管理,这是因为现有法律要求确保数据有更长的在线时间,还因为他们需要能够分析他们的数据,以保持竞争力。”因此,Perry预测,中小企业备份系统在容量及快速存取方面的需求不会减少。研究人员认同,重复数据删除的下一个大问题是能否在容量和速度两方面进行扩展以满足这些不断升级的需要。
“你用一个盒子里所能做的有一个限制,”Lillibridge说,“只是在现有基础上添加另一台机器以期增加扩展的方式是行不通的。因此,一个问题是如何增加多台机器,并作为一个群体工作。”

目前,Eshghi补充说,惠普D2D系统的备份速度大约为每秒100兆字节。“但是,一旦我们开始面临每秒1兆字节或更多的传输数据,以及PB级别的数据存储,”他说,“我们谈论真正的大数字。因此,面临的挑战不是小事。”

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有