数据存储产业服务平台

主存储系统中数据缩减的六大方法

主存储系统数据缩减功能正变得越来越流行了。产生这种现象的驱动力是可量化的成本节约,从不得不购买更少的磁盘来减少每年的支持费用,到减少存储管理相关的运营花费。

数据缩减在存储性能方面还有一个令人高兴的影响:通过减少不活跃数据对于昂贵的高性能存储的占用,使整个存储和应用系统的性能可以获得可喜的提升。 在典型的企业里,按照存储网络工业协会(SNIA)的研究,存放在主存储上80%的文件在最近30天内没有被访问;同一份报告还指出,不活跃数据的增长是 活跃数据的四倍。考虑到这些事实,数据缩减技术已经开始进入主存储领域就不觉得奇怪了。

然而,对比备份和归档系统所使用的数据缩减方法,主存储系统不能够容忍任何一点对于性能和可靠性的影响,这是主存储系统最相关的属性。因此,数据缩减技术发生了变化,并且在主存储上和用在备份和归档系统上采用了不同的方式。

在备份和归档系统上,重复数据删除和压缩是主要的数据缩减手段,而对于主存储系统,那些技术明显变得更加敏感,而且不会像重复数据删除和压缩一样影 响性能。这些主要的数据缩减技术正在被应用到主存储系统中:选择合适的RAID级别;自动精简配置;高效克隆;自动存储分层;重复数据删除;压缩。

主存储系统中数据缩减的方法:选择合适的RAID级别

把“选择合适的RAID级别”放在数据缩减技术列表的最前面首先看起来好像很奇怪,而且不像其它的数据缩减方法,这只是所有存储系统都可以使用的一 个选项,但它对于磁盘的需求、性能和可靠性都有着很大的影响。如果不考虑可靠性缺陷,RAID 0(跨所有磁盘的块级别条带,无校验或镜像)会是最划算和最高性能的选择,但单个磁盘故障将会丢失整个RAID组数据的缺点使其难登数据中心的大雅之堂。

另一方面,RAID 1(镜像,无校验或条带)和 RAID 10(条带化磁盘组镜像),结合了高性能和高可靠性,但需要两倍的磁盘容量,因此也是站在数据缩减的对立面的。RAID 5(块级别条带化,分布式校验)尽管需要一块额外的磁盘,但已成为近些年来最好的折衷方案了,但随着磁盘容量的增长,重建时间也越来越长,在单盘故障 后,RAID组重建的时候,丢失两块磁盘的风险已经增加到一个不舒服却不得不接受的水平。

因此,存储厂商们采用了RAID 6,通过对RAID 5增加一块额外的校验磁盘,使其能够经得起两次磁盘故障而不丢失数据–但随之而来的有不同程度的性能影响,这与实施情况有关。在购买一个新存储系统的时 候,RAID 6和RAID 6的性能指标都会是要考虑的事情。

“与我们大多数的竞争者不同,我们可以采用只有5%额外开销的RAID-DP(NetApp公司的RAID 6技术)技术,”NetApp公司的高级存储技术专家Larry Freeman表示。

主存储系统中数据缩减的方法:自动精简配置

直到最近,仍然没有一个真正替代现有按需供应的存储产品,因此,存储的利用率一直不高。对于在公司数据中心有几百个GB的已经分配但还没有使用过的 存储,这种情况很常见。“在我们使用康贝公司的磁盘阵列和自动精简配置技术之前,我们依赖用户帮助我们估计存储的需求,我们给每个用户的估计再增加20% 到100%,这取决于是什么样应用系统,” Brandon Jackson,北卡罗来纳州加斯顿郡的CIO,描述了这个被许多企业使用以保证足够的存储容量的不科学并且浪费的过程。

自动精简配置技术可以通过允许存储系统按照实际需要的物理容量进行分配的方式,来终结这种存储资源浪费式的管理。存储按需分配到精简卷。例如,自动 精简配置可以分配一个100GB的卷,尽管它只有10GB的物理存储。自动精简配置对于用户是透明的,用户会看到一个100GB的卷。精简供应节约的成本 可能会非常巨大,并且使存储的利用率超过90%.

支持自动精简配置的厂商正在快速增长,同时,这已经成为选择存储系统的关键标准之一。可是要记住,并不是所有的自动精简配置的实施都是相同的。一些系统需要为自动精简配置设置单独的区域,而其他所有的容量都可以用来做自动精简配置而不需要特别的保留。

把“thick”卷转换为“thin”卷的功能,没有使用的存储如何恢复以及自动精简配置的许可方式,是另外一些不同的地方。随着自动精简配置存储 的越来越多,物理存储的耗尽成为自动精简配置环境中经常出现的风险。因此,告警、通知和存储分析成为必要的功能,并且对比传统环境,在自动精简配置的环境 中扮演了更大的角色。

主存储系统中数据缩减的方法:高效克隆

克隆用于对现有的卷建立一个完全相同的复本,这更适用于服务器虚拟化,它可以经常用来克隆虚拟化操作系统卷。克隆最基本最主要的实施是建立源卷的完全拷贝,克隆卷会占用与源卷完全相同的物理存储。

进一步的升级功能是对于自动精简配置卷的克隆。而一些存储系统在克隆期间会把精简卷转换为传统卷,另外一些可以建立精简卷的克隆,精简源卷和克隆卷 需要分配相同的物理存储。“我们的Virtual Storage Platform(VSP),能够通过一个精简卷建立一个精简的克隆卷,”日立数据系统公司企业平台部的高级产品市场经理,Mike Nalls如是说。

最有效的克隆是精简克隆,克隆卷完全不保留数据,而是根据原始影像。精简克隆只需要保存原始影像和克隆影像的差异即可,这样可以节约大量的磁盘空间。

换句话,一份最新的克隆需要最少的物理磁盘空间,并且只有区别于源影像的克隆变化才会被保存。NetApp公司的FlexClone和Oracle 公司的ZFS Storage Appliance(Sun公司ZFS Storage 7000系列)的克隆功能是当今支持精简克隆的存储系统。

主存储系统中数据缩减的方法:自动存储分层

自动存储分层是主存储上减少数据的另外一种机制。一个磁盘阵列能够把活动数据保留在快速、昂贵的存储上,把不活跃的数据迁移到廉价的低速层上,以限制tier-1存储的花费总量。

自动存储分层的重要性随着固态存储在当前磁盘阵列中的采用而提升,并随着云存储的来临而补充内部部署的存储。自动存储分层使用户数据保留在合适的存储层级,因此减少了存储需求的总量并实质上减少了成本,提升了性能。

自动存储分层有两个关键的特性

数据从一层迁移到另一层的粒度越精细,可以使用的昂贵存储的效率就越高。子卷级的分层意味着数据是按照块来分配而不是整个卷,而字节及的分层比文件级的分层更好。

如何控制数据在层间移动的内部工作规则,会决定需要把自动分层放在正确的位置的努力程度。一些系统,像EMC公司的Fully Automated Storage Tiering(FAST),是根据预先定义的什么时候移动数据和移动到哪一层的策略。相反的,NetApp公司和Oracle公司(在Sun ZFS Storage 7000系列中)倡导存储系统应该足够智能,能够自动的保留数据在其合适的层,而不需要用户定义的策略。

主存储系统中数据缩减的方法:重复数据删除

在备份和归档领域的良好表现,使得重复数据删除逐渐找到了其进入主存储的途径。重复数据删除用于主存储最主要的挑战是性能慢。“去重和性能完全无法 相处,” Greg Schulz说,位于明尼苏达州斯蒂尔沃特的StorageIO Group的创始人和高级分析师。不过尽管如此,重复数据删除已经找到了进入一些存储系统的途径,而大家的跟风只是时间的问题。

NetApp公司为其所有系统提供重复数据删除选项,并且可以针对每个卷进行激活。NetApp公司的重复数据删除并不是实时执行的。相反,它是使用预先设置的进程执行的,一般是在闲暇时间执行,通过扫描把重复的4KB数据块替换为相应的指针。

NetApp公司并不对每一个4KB数据块生成一个唯一的哈希值,而是使用数据块的校验和来标识重复的数据块。为防止哈希冲突,这种情况发生在不同 的数据块却有着相同的校验和(哈希)的情况,NetApp公司执行了数据块级别的比较,并去掉那些重复的部分。至于所关心的性能问题,“我们平均每小时可 以去重1TB数据,”NetApp公司的Freeman表示。NetApp公司的重复数据删除一般是针对单个卷或LUN执行的,并且不会跨越它们。

与NetApp公司相似,Oracle公司在其Sun Storage ZFS 7000系列系统中也具备块级别重复数据删除的功能。与NetApp公司不同的是,去重是在其写入磁盘时实时执行的。

“根据环境以及环境中的变化总量,去重的负荷小于7%,” Oracle公司的存储产品管理高级主管Jason Schaffer说。一些较小的厂商,像BridgeSTOR LLC公司,利用其应用优化存储(AOS)以支持去重。

另外一个明确投身数据缩减的厂商是戴尔公司。随着2010年对Ocarina Networks公司的并购,戴尔公司获得了内容感知的去重和压缩技术,并企图把这种技术整合到其所有的存储系统中。“从下半年开始,我们会发布具有 Ocarina去重和压缩技术的存储产品,”戴尔康贝的产品市场化主管Bob Fine说。

当前面这些公司开发或收购重复数据删除技术的时候,Permabit Technology公司已经开发出了Albireo,一个可以授权给存储厂商的去重软件库,使这些厂商为及时适应市场而在其存储系统中增加重复数据删除 的功能,同时避免了自己开发所带来的风险。“我们已经有了Xiotech公司、BlueArc公司以及LSI公司三个客户,我们希望具备Permabit 去重功能的第一个产品会在2011年晚些时候发货,” Permabit公司的CEO,Tom Cook说。

主存储系统中数据缩减的方法:压缩

压缩和去重一样,在用于主存储时面临许多相同的挑战。压缩也有性能负荷;它仅限于一个卷,并且无论什么时候数据要移出这个卷,数据必须要解压缩,这 就像去重后的数据从一个卷迁移到另一个卷的时候必须先恢复。在理想情况下,不同的层,包括备份和恢复层,应该能够接受并应对压缩和去重的数据,但因为标准 的缺失,他们通常还不能。

压缩和去重是互补性的技术,提供去重的厂商通常也提供压缩–BridgeSTOR公司、戴尔公司和Sun公司都是这样。而对于虚拟服务器卷、电子 邮件附件、文件和备份环境来说,去重通常更加有效,压缩对于随机数据效果更好,像数据库。换句话说,在数据重复性比较高的地方,去重比压缩有效。

除了上述这些厂商以外,EMC公司能够在其VNX统一存储产品中提供压缩功能,以及对于文件内容提供单实例存储特性,这个功能可以实现对于相同的文 件只存储单个拷贝,它确实达到了一定程度的重复数据删除功能。IBM公司为前端的NAS存储提供了Real-time Compression Appliances(STN6500和STN6800);该设备及其压缩技术来自IBM公司在2010年对于Storwize公司的收购。 “Storwize公司的实时压缩软件在今年晚些时候将会成为IBM磁盘阵列的功能,在18个月之内,可以用在所有的产品线上,”IBM公司存储效率战略 主管Ed Walsh说。

新老技术的并存

主存储的数据缩减是当今的现实,而且随着数据的无节制增长,它无疑会成为存储效率的关键部分。数据缩减功能,像RAID 6、精简供应、高效克隆和自动存储分层正在变得必不可少,并且成为评价主存储时的必要特性。另一方面,重复数据删除和压缩是新兴技术,随着时间的推移将变 得更加普遍,但现在这些相对的新来者刚刚开始对主存储产生影响。

主要存储缩减技术

主存储系统中数据缩减的六大方法

主存储系统的快速数据缩减

取回主存储上宝贵空间最简单的方法是通过归档。公司,像个人一样,有保留太多东西的倾向。企业在其主存储上保留了大量某天可能会用到的数据。归档可以像迁移数据到归档存储以及在需要的时候恢复到主存储一样简单–零成本。

如果想要自动迁移数据到归档存储并恢复到主存储系统的,可以使用像赛门铁克公司的Enterprise Vault或Waterford Technologies公司的归档产品,它们可以对已经归档的数据,在主存储上留下一个“存根”,对用户隐藏文件的真实位置。访问的时候,归档产品会根 据“存根”自动拉回数据,对用户完全透明。

未经允许不得转载:存储在线-存储专业媒体 » 主存储系统中数据缩减的六大方法