数据存储产业服务平台

存储容量优化技术接近行业拐点

在面世后短短的四年时间里,存储容量优化(SCO: Storage Capacity Optimization)作为一整套技术解决方案已经对存储管理战略及成本产生了重大影响。这套技术的最新发展正在推动行业迅速接近拐点,为这一领域的厂商带来了重要启示。借用上世纪60年代Buffalo Springfield的名言,我们可以说:“有些事情即将发生”。

真正基于网络架构的SCO技术的面世以及新近推出的基于硬件的重复数据删除技术,这两种技术发展将在未来18至24个月内推动存储行业发生显著变化。当前的SCO市场领袖将受到后起之秀的挑战,这些后来者同时致力于主存储和二级存储容量优化,以弥补仅致力于二级存储技术的SCO厂商的不足。我们相信,受容量优化在整个数据生命周期内的强大数据存储优势的吸引,最终大多数存储技术都将在诞生不久即向容量优化发展。这些发展将极大地推动SCO技术在各种规模的企业中的应用,其部署价格远低于现有技术,从而使最终用户从中受益。

SCO市场:概述

2004年,新兴厂商Data Domain推出了“重复数据删除”的理念,这种技术可以把一定数量的信息存储到与原数据称比例,或者比原始空间更小的存储空间里面 。“重复数据删除”能够识别并删除冗余数据,将冗余数据替换为空间效率更高的指针和索引,以此为基础,这种技术能够缩减所需存储空间,优化远程复制,因此不仅能够节约基础设施,还能够节约能耗、冷却、占地和网络带宽等成本。重复数据删除以次级存储应用为主要对象,如备份和归档,因为这些应用经常会出现大量数据冗余。

随着行业技术的发展,从某种意义上来说,人们已经对重复数据删除的概念产生了误解。有些厂商搜索文件级冗余,有些厂商则搜索次文件级冗余。有的厂商推出了新的算法,利用磁带格式或应用内容感知实现更高的容量优化率,这种方法优于针对所有数据类型采用一种算法的解决方案。大多数采用此类技术的厂商都将其与硬件压缩加速相结合,以获得更高的容量优化率。

因此,Taneja Group于2008年4月引入了术语“存储容量优化”(storage capacity optimization),用于描述一组相关技术集,这些技术能够使用最小的原始存储空间存储一定数量的信息。Taneja Group将SCO市场划分为两个子市场:主存储优化(PSO)和次级存储优化(SSO)。PSO包括一组用于主存储应用的技术,SSO则指的是历史上的“重复数据删除”市场,这类技术主要以次级存储为服务对象。与主存储相比,次级存储的性能要求(访问延迟)一般较低,而且往往包括更多的冗余数据;以次级存储为目标开发出的技术有时并不能有效应用于主存储。

随着市场的发展,Data Domain在SSO领域确立了优势领先地位。2007年,该公司的市场份额已超过50%。不过,最新的两项技术发展――应用于主存储和次级存储的真正网络架构的SCO技术以及基于硬件的重复数据删除技术――已经带来了市场转变的信号,对已经树立了单纯PSO和/或SSO解决方案领先地位的市场领袖形成了威胁。

综合性SCO应用的“Accordion”(手风琴)效应

要讨论如何大范围部署SCO技术,我们首先必须了解“accordion”(手风琴)效应。数据只能被运用于能够读出此类数据的应用,一般情况下,这就意味着数据必须以“未经优化”的格式存储。也就是说,无论当前以何种方式存储(重复数据删除、压缩等),数据都必须恢复为原始格式,以使创建了这些数据的应用能够读出这些数据。只需解读这些数据以使其被正确分类(如在备份应用中)或编制索引用于搜索(如在归档应用中)的应用并不要求数据恢复原始格式,但必须能够查看到足够的与数据有关的元数据,以实现正确的分类或归档。如果被存储于容量优化后的主存储器内,数据将被其创建应用反复访问,并在生命周期的最初几个月内不断被修改,因此这些数据一般在生命周期早期即接受容量优化,并在此后不断地经常扩展。此外,这些数据在备份之前也将被再次扩展,而备份通常每天都要进行,有些备份的周期甚至更短。随着时间推移并成为归档数据,数据将被再次扩展以实现正确索引,并被存储于长期档案之中。这种重复扩展与压缩的过程即所谓的“手风琴”效应。

图1显示了数据在整个生命周期内的运行流程。我们能够明显看出,次级数据的数量达到主存储数据的十倍,且拥有大量冗余数据(多次备份以及保存微小变化数据集所致),因此次级数据是SCO技术的主要对象,SCO技术的投资很快能够获得回报,且具有极大的成本节约潜力。不过,SCO技术能够提供的价值在很大程度上与需要保留的数据的总体数量相关――包括主存储和次级存储数据。如果数据每年以至少50%至60%或更高的速度增长,许多企业将很快面临数百吉比特(terabytes)主存储数据的管理任务。如果达到这种数据规模,且主存储成本可达到磁盘次级存储的十倍,则PSO将在容量优化率尚未大幅增加之前就成为企业必不可少的经济选项。

图1. 标准数据周期运行流程。红点表示可以运用现有的SCO技术的数据流。如果要将数据从备份磁盘移植至远程灾难恢复磁盘,并不需要恢复数据存储格式,但如果要将数据移植至磁带,则数据必须以扩展格式存储。

分裂型(Disruptive)技术的发展评估

基于网络的PSO技术

到目前为止,SCO厂商已经部署了基于源和目标的解决方案,分别用于来自不同优势点的数据流。已经面世的基于源的解决方案包括集成于企业备份软件客户端的技术,这种技术利用主机资源完成容量优化工作。微软和Sun Microsystems等操作系统厂商已经开始商谈将部分SCO技术集成于操作系统,但两家厂商都尚未有此类产品面世。已经上市的基于目标的解决方案包括线内PSO(GreenBytes、Storwize)、SSO(Data Domain、IBM/Diligent)和后处理POS(NetApp、Ocarina Networks)以及基于“设备”模式的SSO(FalconStor、Sepaton)。

SCO概念既能为主存储也能为次级存储提供价值,此外,如果使用不同的算法,在数据生命周期内针对相同的数据同时使用PSO和SSO技术也能够形成技术合力优势。基于源的解决方案能够对存储于主应用服务器上的数据进行“首次处理”。不过,并非所有解决方案都都应用于主存储。一套特定的PSO算法也许可以高效率地完成特定数据类型的容量优化,并满足主存储访问延迟要求,而另一套SSO算法则能够在降低访问延迟要求的前提下实现更高的优化率。无论SCO技术部署于源或目标,数据都会在使用中产生“手风琴”效应。源和目标数据都必须在使用前再次扩展的事实使PSO和SSO解决方案得以和平共处。

不过,如果在网络中部署能够同时实现PSO和SSO功能的SCO技术――并非作为存储目标,而是作为一整套透明网络服务,结果将会如何呢?结果是,无论数据被其创建应用使用还是接受本地备份或远程备份或归档,网络将在事实上成为一个普通的“转换”点。如果通过网络存储,数据将在创建后或初次存储之前立即接受存储优化。基于网络的SCO厂商必然会支持采用单一的网络SCO解决方案同时实现PSO和SSO功能,以免采用相互独立的源和目标解决方案。这些厂商可能会将SCO技术所能够实现的存储优化率作为根据,除此之外,与部署针对主存储和次级存储的不同解决方案相比,在整个企业内部署单一技术以全面解决SCO问题显然要更为简单且成本更低。从这个意义上说,基于网络部署的SCO可能会对基于源和目标的SCO技术产生威胁(包括PSO和SSO解决方案)。

领先的广域数据服务(WDS)厂商Riverbed已经推出了基于真网络的模型。Riverbed在07年第四季度宣布,公司计划于2009年推出一种新产品,这种新产品将在WDS产品的基础上增加SCO功能,用于空闲数据处理(该公司已经将SCO技术用于不同地点之间的宽带优化)。如果这种技术能够为其现有的Steelhead客户带来更新而不会导致服务中断,Riverbed将拥有五千多名极有可能购买其SCO解决方案的客户。在Riverbed模式中,数据将在创建不久即接受容量优化,并一直保持优化格式,直至主或次级应用切实使用这些数据。理解这种模式后,最终用户可能会提出一个重要的问题:如果已经拥有了PSO/SSO技术作为网络基础设施的组成部分,那么在此后的数据生命期中,我是否还有必要花钱购买独立的SCO解决方案?

现有的PSO和SSO厂商必须对此做出回应。很明显,最终用户想要以透明的方式部署SCO,而不会对主或次级存储性能带来不必要的影响。与真网络模型相比,部署NAS和/或FC(VTL)接口的解决方案可称为利基解决方案。虽然相关厂商可能会在近期内利用其丰富的业内经验提供更高的容量优化率,但针对利基应用的高优化率可能并不足以说服客户放弃更为全面的解决方案(虽然存储优化率较低)。内容感知算法能够针对特定的数据类型提供更高的容量优化率,因此,如果利基市场的数据量足够大,这种算法将能够为厂商提供长期可持续利基市场机遇。但是,如果不能超越SCO技术的局限而将目光投向更广大的市场,长期致力于利基市场的厂商将面临被淘汰的风险。

基于硬件的SCO

2008年10月,一向致力于安全加速和压缩板研发的Hifn公司推出了新的板卡级产品,能够为基于硬件的数据块级重复数据删除提供支持。这款产品以OEM(原始设备制造商)为目标客户,能够使所有基于Windows的白盒(white box)转变为SCO设备,其成本远低于现有的高成本解决方案。大多数行业观察家都了解硬件压缩技术对于软件压缩技术的影响,我们完全有理由相信,类似的影响也适用于SCO市场(目前仍以基于软件的SCO为主导)。

Hifn的新技术可能会对三个领域产生影响。首先,现有的重复数据删除技术以软件为基础,因此可以推断,在硬件上运行此算法将帮助线内SCO实现更高的运行速率。SCO解决方案以线速运行的能力是线内解决方案的关键――无论用于PSO或SSO。基于硬件的解决方案可支持一系列用于主存储的技术,甚至包括部分现有的算法(包括PSO和SSO),这些算法在软件上运行时不能满足在线使用的访问延迟要求(虽然Hifn的新产品也未直接解决这一问题)。总之,支持更高线速的能力将极大地推动SCO技术在主和次级存储环境下的应用。

其次,Hifn的新技术将推动行业向前发展,最终使平台(服务器和存储)提供商将SCO技术集成于成本更低的解决方案之中。不过,这一切并不会在旦夕之间成为现实:目前的Hifn ASIC只能完成重复数据删除工作,因此OEM需要通过增加索引和数据完整性解决方案自行完成完整的解决方案。未来Hifn有可能推出其他SCO解决方案配件(如索引系统),提高VAR(增值型经销商)的成本效益,并将SCO轻松集成至现有的服务器和存储平台之中。届时,如果增加SCO技术的成本很低(与部分解决方案价格相比)且正如在服务器或存储平台中增加ASIC一样简单时,它将成为各家厂商竞相购买的对象。相关SCO厂商在过去四年中积累的经验将使它们在存储优化率方面至少获得短期优势,但此领域的进一步发展无疑将会推动商品技术曲线向更高性能发展。

最后,相关领域的产品价格也将受到影响。我们假定Hifn产品的容量优化率仅有单纯SCO厂商的80%,最终用户将能够根据解决方案价格与容量优化率之比轻松找出物有所值的产品。以Hifn卡为基础的SCO产品的“解决方案”提供了大幅降低产品价格的可能性。最终用户可能会以“价格/可用GB”为指标衡量解决方案的价值,并据此做出购买决策。[可用容量的计算是指:1GB物理容量在采用SCO算法后所代表的可用GB数。]因此,我们至少可以预期,Hifn的新产品将在未来18至24个月内推动PSO和SSO解决方案价格大幅下降。

总而言之,Hifn推出的基于硬件的重复数据删除解决方案向SCO厂商发出了不容忽视的警示信号。

对最终用户的影响

我们认为,在未来18至24个月内,这两种分裂型技术的发展――基于网络结构的SCO与硬件重复数据删除――将为最终用户带来三个方面的变化:

·基于硬件的重复数据删除将比真网络SCO更早产生影响,不过这两种技术将共同推动SCO技术的广泛应用,促使客户以战略眼光看待SCO技术的部署,以期在客户环境下取得最佳效果。

·如果真网络SCO能够通过生产环境证实其可用性,它将推动能够同时提供主和次级存储解决方案的SCO技术的发展,这种技术将放弃利基解决方案。

·随着这两种技术对市场的影响力开始显现,SCO技术的价格将下降至少30%。

这些发展将导致市场形势不明朗,不能做出及时回应的相关SCO厂商将被新的市场领袖所取代。

真正网络部署的SCO的原理似乎能够提供更好的模型,因为从定义上看,它比利基解决方案更为全面,但最终的结论仍有待实践检验。我们提醒最终用户了解网络SCO的战略价值,并在网络SCO上市后根据性能、可调节性、数据可靠性和可用性对其实施进行评估。

最后,我们要提醒最终用户,我们对这些技术发展的预测并不排斥客户对PSO或SSO解决方案进行战略性购买――如果你能够利用近期硬件成本节约优势证明此类购买的重大经济利益。如果数据量足够大,PSO和SSO技术都能够为现在的企业提供巨大价值,不过我们仍然认为,未来三至五年内,覆盖主和次级存储的综合性解决方案将在总体上取代利基解决方案。

未经允许不得转载:存储在线-存储专业媒体 » 存储容量优化技术接近行业拐点