数据存储产业服务平台

网络存储环境下的重复数据删除技术

重复数据删除技术已走出仅适用于备份存储环境的应用型态,开始进入供网上使用的第一线存储设备

重复数据删除技术(De-Dupe)可透过重复删除运算,去除数据冗余,大幅缩减占用的存储空间。然而重复删除运算相当消耗运算资源,对存取能效会造成相当程度冲击,要应用在对存取能效较敏感的网络存储设备上,将会面临许多困难。

自问世以来,重复数据删除技术一直被定位于备份应用,整合在备份软件、虚拟磁带库、磁盘到磁盘(D2D)备份存储装置等设备中使用。

相较于网络存储设备,作为备份装置使用的近线(Near-Line)存储设备可容许较大的存取延迟,对吞吐量要求也较低,因而能容忍重复删除运算所造成的能效冲击,可充分利用其缩减备份数据容量的特点,让使用磁盘存储设备长期保存备份数据成为可能,从而减少对于磁带的依赖。

但面对企业数据量不断增长,以及虚拟化应用普及后所带来的数据处理问题,一些厂商试图将De-Dupe技术应用到网络存储设备上。

成型的网络重复数据删除技术

相较于已十分普遍的备份型De-Dupe技术,线上型De-Dupe技术目前仍在初期发展阶段,提供的厂商十分有限。

网络存储的特性,影响了重复数据删除的应用

相比于居于第二线的备份设备,网络存储设备有许多不同的特性,连带地,De-Dupe技术也面临不同的要求:

– 对能效更敏感

将数据以重复删除运算分解为基本元素与索引存储,以及反向运作将经过重复删除运算后的数据回复为原始状态,以便供前端主机存取,都需要消耗运算资源。

网络存储设备必须因应前端主机即时写入与读取数据的要求,对能效十分敏感,不能允许因执行De-Dupe与还原运算,而导致前端主机的存取出现延迟。

– 重复删除率先天较低

许多备份型De-Dupe技术宣称的20~30倍,甚至是50倍以上的空间节省比率,都是以“每天执行全备份”为基准。

一般情况下,企业数据的异动量通常有限,每天新增或异动部份,占总数据量的比率并不大,因此若每天都执行全备份,则两次全备份之间,绝大部分的数据显然都是重复的。在这个基础上运用De-Dupe,得到几十倍的空间节省效果是理所当然的。

但换成网络存储环境,就没有前述那种数据先天就带有很高重复性的现象,能缩减的比率十分有限。

– 网络存储直接处理原始数据

备份装置存放的数据是原始数据的复本,只有需要还原时才派得上用场;网络存储装置存放的,则是必须随时因应前端主机存取的原始数据。因此整合在网络存储设备中的De-Dupe技术,对重复删减运算法的可靠性与可用性,将有更高要求。

– 需与其他存储功能整合

许多进阶存储功能,都是基于网络存储设备的原始磁盘进行,如快照、Clone、远端复制等,因而在线上磁盘运作的De-Dupe,也必须整合这些应用功能,不能因启用De-Dupe而妨碍其他功能执行。

网络存储环境下的重复数据删除技术

 

NetApp

NetApp在2007年推出的A-SIS,就是一种可应用在网络存储设备的De-Dupe技术。

A-SIS可搭配NetApp的NearStore R200、FAS与V系列存储设备使用,只要存储设备的Data ONTAP操作系统版本是在7.2.5.1以上,并启用A-SIS与NearStore授权即可。

A-SIS属于后处理(post-processing)类型De-Dupe技术,待数据写入Volume后,再按照排程设定或以CLI或GUI介面手动启动执行,执行重复删除运算时以固定的4KB区块为单位(也就是WAFL档案系统的区块单位)。

A-SIS重复删除运算并非在存取时即时进行,因而能避开影响前端主机存取的问题,可在离峰时间再执行重复删除;而且在NetApp存储设备的WAFL档案系统管理下,A-SIS处理后的数据仍可直接读取与写入,不像其他厂商De-Dupe后的数据必须先还原成原始状态,才能进行存取。缺点则是只能应用在FlexVol型的Volume,不能用在传统Volume,且重复比对也仅限于该Volume。

Dell Ocarina

Dell在2010年7月藉由并购新创厂商Ocarina,取得了后者的内容感知存储最佳化技术(Content-Aware Storage Optimization),除获得Ocarina原本的软件与应用服务器产品外,预期还会将相关技术应用到Dell自身NAS产品上。

这项技术特点在于整合了压缩与重复数据删除两类技术,系统会解析档案类型,分别使用不同运算法进行压缩与重复数据删除处理,还能让使用者调整运作区块大小,适应处理不同型态档案。

架构上分为Ocarina Optimizer与Ocarina Reader两个元件,前者负责对原始数据进行重复删除与压缩,后者负责将前者处理后的数据、重组为前端主机可读取的原始档案形式,并提供弹性的政策功能。缺点是不适用写入密集环境,较适合读取密集或少量写入环境。

部署时采用类似闸道器的方式,将Ocarina的应用服务器部署在NAS存取路径上,充当前端主机与后端NAS间的中介,并支援高可用性丛集架构。Ocarina也提供纯软件与OEM的销售形式。

EMC

透过并购,EMC先后取得了Avamar与Data Domain的De-Dupe技术,两者基本上都是定位于备份应用,不过在这之外,EMC亦在2009年初为Celerra系列NAS的DART操作系统增加称为Celerra Data deduplication的De-Dupe功能。

Celerra Data deduplication以档案为基础运作,兼具De-Dupe与压缩两种功能,为避免对前端主机的存取形成冲击,使用者可透过Celerra Manager介面,设定De-Dupe扫描周期(预设是每隔7天),可接受De-Dupe处理档案的条件(多久没被存取、大小),以及排除在De- Dupe外的档案,藉此可将较不被存取的档案纳入De-Dupe、经常被存取的档案则不进行De-Dupe.

若是未进行De-Dupe的档案,在存取方面将不会受到任何影响。若前端主机要读取已被De-Dupe的档案,DART操作系统会将档案读进Celerra记忆体中还原后,再回应给前端主机,整个操作都不在磁盘上进行,藉以提高速度。

若要对De-Dupe的档案进行写入或修改,则须先在档案系统中还原回原始状态,对能效有较大影响。整体来说亦是较适合读取密集或少量写入环境,不太适合写入密集环境。

Permabit

Permabit是一家De-Dupe软件厂商,由于该公司业务以OEM形式为主,主要产品是2010年中推出的Albireo数据最佳化软件,设计上是以嵌入第三方厂商存储软件中的方式运作,透过API为存储软件提供一个De-Dupe谘询机制,确认写入数据是否重复(不参与读取操作)。

依用户要求,Albireo可采用线上处理(in-line)、后处理与平行处理等三种部署架构,并提供区块、档案与串流等三种形式的 API,可供整合到不同类型的存储软件中,其中档案与串流两种档案层级的API还提供内容感知功能,可解析写入档案类型、调整De-Dupe处理使用的区块大小以达到更好的效果。

Albireo可搭配线上、备份、归档等不同类型存储设备,或备份软件使用,当应用在网络存储设备时,可采用对能效冲击最小的平行处理架构,当前端主机将数据写入存储设备时,Albireo会透过API同时取得一份数据复本,对其进行De-Dupe比对,若确认数据为重复,则会驱动存储系统软件以非同步方式更新与整并重复的数据。

目前已有Bluearc、Xiotech等存储厂商与Permabit签约,准备引进Albireo来搭配他们的存储设备与软件。

Nimbus

Nimbus的HALO操作系统可提供整合存储管理服务,能透过存储虚拟化技术,将管理的磁盘空间透过CIFS、NFS、iSCSI等协议给前端主机存取,而且还整合了in-line型De-Dupe技术。目前已被应用在Nimbus的S-Class企业存储设备。

未经允许不得转载:存储在线-存储专业媒体 » 网络存储环境下的重复数据删除技术