数据存储产业服务平台

张梅生:加速IT架构 向未来转型

现在,云计算已经成为神州大地风风火火的名词,核心就是IT资源的虚拟化,如何通过产品完成自身IT系统的虚拟化,以及尽快转型新时代的IT技术,针对以上问题,在2012年9月27日郑州召开的主题为 “融信息精华 合数据力量”的存储沙龙中,惠普公司的备份方案产品经理张梅生给予了解答。

以下为现场实录:

今天这个会议我会先从数据保护这个角度来讲,为什么呢?因为我觉得这几年是IT去做演进或者是变革时期一个非常关键的阶段,在IT的演进和变革当中,数据显得非常的重要,怎么能够把你的数据在这种变化的阶段,以一种新的方式,一种低成本、高效率的方式把它保护起来,使你没有后顾之忧去发展你的业务的时候,那这个解决方案显得尤为重要,所以我们今天这个CIO活动开场就由我来讲一下,新一代的数据保护的解决方案。

我在讲数据保护解决方案之前,大家可以先来看一看数据中心的演变的趋势。之前,我们传统的数据中心都是以物理环境,或者物理级的组合搭建物理中心,虚拟化应用的产生,让大家意识到我要怎么样去做资源的整合,去做虚拟化的部署。这种虚拟化的部署里面,可能又发展到说我们要用标准化的部署的方式来应对这种资源的整合。然后,后一步,可能就是从虚拟化到云计算,我相等可能目前有很多的企业,或者是组织都已经在考虑到云计算。那云计算带来一个对IT的最大的影响是什么呢?就是意味着我们从一个技术支持的部门,再转向一种服务部门。在新的从支持部门向服务部门去转化和演进的过程当中,对你现有的IT的架构,IT的存储架构,或者你的部署,或者说你的要求,都在改变,有可能你需要这种瞬间的响应,你要考虑你的成本,因为成本决定你的服务水平和服务利润的非常重要的方面。另外一个方面,就是你如何面对IT转向面向服务过程当中出现的不可预测性,相应的,我们就会有不同的技术,或者是不同的方案,来帮助大家去应对。最后,大家要是发展到共有云,所有私有云,现在大家谈的比较多的。在现有的演进的趋势里面,作为IT的决策者,大家在考虑什么?关心什么?在想什么?我接下来会给大家分享一下我们有一个叫ESG的企业战略调查机构给大家做的调查数据和分析在这种演进的过程当中,他去拜访了国外的600多个企业的IT决策者,大家可以做以下这些选项,可以选三项,从三项里面,他就问,在你未来12—18个月之间,你对贵公司的IT发展决策,哪三个因素是影响最大的?根据这个调查结果我们可以看到,42%的IT的决策者选择了成本削减的举措。另外还有33%的决策者选择的是业务流程的改进举措。还有相应的就是在安全和风险管理类的业务措施的举措。可以看到,从这个调查里面我们会发现,很多的CIO都在考虑什么?成本,第一考虑组织成本,第二就是改进。从这个调查的反馈里面也可以看到,当前我们数据中心也在面临一些挑战,第一个挑战是来自于数据的快速的增长,数据快速的增长肯定会带来你成本的无限制的增加,会面临很多的决策者去面临成本的压力和怎么去解决。另外,这种数据的快速增长,就导致你的系统要有一个非常好的系统性能去应对和处理这些数据,我们还要考虑一些关于这种扩展性的,我是不是就可以小规模起步,通过非常低成本的投入,通过先进的架构,按我的需要做模样和性能同步的提升,在可扩展性上,也可以帮我降低一些成本,应对以后未来不可预测要发生的这些事情呢?这些可能都是我们目前数据中心面对的一些挑战。还有一些就是我们的网络资源啊,包括我们对于数据生命周期的保护,我产生这么多的数据,哪些数据我需要把它放在我们比较昂贵的,需要快速响应的主存上,有那些数据可以放在二级存储上,是不是有些数据可以考虑资源备份的解决方案。对于高达几十年的数据保留,我是不是可以考虑磁带,做磁带的存放。所有这些数据,也是降低用户成本的一种手段。

提到第一个挑战,数据中心的数据量的增长,但是这种增长到底是一个什么样的比例呢?这个ESG也去访问了一些企业IT的决策者,他发现,每年大概有42%的人选的是每年数据量的增长是在11%—20%,还有是选择每年超过40%的有30%的人去选择。从这个方面可以看到什么呢?数据量的快速的增长,是每一个企业或者大多数的企业都不得不去面对的一个问题,要去解决的一个问题。相应的就是,我们存储开支该怎么办?他就做另外一个调查,在你未来12—18个月之内,你的企业或者公司在下列哪些数据存储的领域进行重点投资呢?第一个选择有36%的人是选择的是备份和恢复的解决方案,要进行重点的投资,第二个,有24%的人选择了异地灾难恢复的数据复制解决方案,另外还有23%的人考虑购买新的SAN存储系统,有18%的人考虑投资数据削减技术。从这个上面可以看到,我们第一个作为IT的决策者,考虑是怎么样把数据有效地去做备份和恢复。另外一个需要关注的是18%的人会考虑使用数据缩减技术,也就是我们今天讨论的数据删除的技术。

谈到数据保护,他们又做了另外一个调查,在做数据保护里面,这个领域之内,贵公司现在面临的主要的难题有哪些呢?有13%的决策者选择了如何去满足数据保护的容量要求,这很关键,因为什么?因为数据的快速的增长,对备份来讲带来的压力会更大,为什么呢?因为大家都知道,备份实际上它的数据量是冰山下的非常庞大的一角,你可能看到你的主存的数据只是冰山上冒出来的小山,但是备份是藏在海水里面非常庞大的一块,可能是五倍,可能十倍于原来主存的数据,所以你数据量快速的激增,带来最让大家头疼的问题,就是我的备份该怎么做?我的数据这么大的容量,我采取什么样的解决方案,在我能够承受的成本范围之内做备份。另外,这么大的数据,我怎么能够在我的备份窗口内完成备份?而相应的,因为我业务的需要,我需要恢复的时间还在不断的去缩小我要很快地把它恢复过来,这些都是IT决策者比较头疼的问题。另外一个,有7%的人在考虑什么?不能接受数据丢失和宕机时间。这是我第一次看到在调查里面出现的这个要求,因为传统的数据备份领域之内,大家都认为备份是离线的数据保护,这样对宕机的时间要求就不会那么苛刻,如果停机,大不了备份做不成,过一会重启再做就行了,但是在新的数据中心或者IT架构演变的过程中,大家对数据备份的宕机时间和它的可靠性,也提出了非常高的要求。

在这里面我们可以看到,根据刚才对IT决策者的几个调查,发现大家在担心什么?成本,对数据保护方案呢?容量节省。那如何去应对呢?你可以看到,我们现在越来越多的重复数据删除技术的应用在我们的备份系统里面、备份软件里面、备份的硬件设备里面,在不断地会看到,怎么能看到呢?举一个比较简单的例子,你可以看到,在目前主流的存储厂商里面,或者服务器厂商里面,大家所有的备份系统里面的磁盘备份系统,一定都备份了重复数据删除功能,已经是标准的行业都必须要具备的功能。但是可能大家部署这种重复数据删除的方式和实现的方式会有些不同,我待会儿会给大家做一个详细的介绍。那什么是重复数据删除呢?是真的把数据删掉了吗?不是,它只是把备份过来的数据拆分成不同的块,拆成块以后,我在里面做比对,我只保存一个,另外那些领域的块的东西我放在地图里面,我可以找到它,通过这种方式,我可以实现容量的节省。因为备份的策略和备份的保护的机制,从它的备份策略上可以看到,我今天可能常见的备份策略,我每周做一次全备份,每天做一次增量。也就是说我今天的数据明天要备、后天要备,大后天还要备,我备份至少三个月、半年、一年,甚至更长,你自己就可想而知,这里面重复的数据量有多大,通过重复数据删除技术,你可以感受到里面的冗余的数据块,我可以知道这个东西在这儿,这就是重复技术删除原理。在业内比较标准的重复数据删除的有效率是多少?20倍,是怎么来的?我们按照通常的备份策略,每周做一次全备份,每天做一次增量,连续八周下来去做,保留这个数据保存的周期,可以保存六周,它就可以实现20:1的重复数据删除的效率,这是一个业界都认为比较标准的重复数据删除的算法。

所以说在另外一个调查里面,IT使用者在考虑重复数数据删除作为主要的因素考虑的时候,你认为重复数据删除的方案应该具备哪些因素对你来说是最重要的?发现又是成本,解决方案的成本,45%的人选择解决方案的成本,37%的决策者选择的是怎么样能够非常容易地部署它,并且使用它,33%的人选择了我怎么样能够把它的备份和恢复的性能的影响,这是我考虑的一个很重要的因素。另外一个,就是28%的人选择了对备份流程现有的整合。

我们可以看到,目前因为每一家都有自己的重复数据删除的技术,目前市场上有几种主流的技术,我大概做了一个总结,第一种是备份软件,就是我把重复数据删除的技术和功能部署在备份软件上,通过备份软件做备份的时候,从备份软件的角度我就开始做重复数据删除。第二种是VTL,就是虚拟带库,我传统的虚拟带库里面,除了做虚拟带库,又加了额外的重复数据删除的功能。还有网关的应用,我给你一个重复数据删除的网关,你下面随便你使用一个我要求,或者一个标准化的磁盘备份设备,你把它挂上去,你就可以做重复数据删除了。另外一种,就是我给你提供一种非常灵活的部署的方式,但是也是在设备端,你可以基于一种NAS的方式去做重复数据删除,也可以是VTL的数据做重复数据删除,这是目前主流的四种重复数据删除的方式。

哪种方式最好呢?老实说,我觉得没有绝对的最好,因为这四种方式每一种方式都有各自的优缺点,关键是说这四种方式里面,对你的环境来讲,对你的需求来讲,哪种方式会更适合你,那我们接下来可以看一下,这四种方式,或者说从部署的方式做重复数据删除,消除的时间上,或者各种方式上,那么它的优缺点在什么地方?大家也可以对号入座一下,如果你采用重复数据删除系统的话,这些优缺点是不是也要考虑?哪种对你来讲更重要,更有决策性。

第一,我们首先看重复数据删除部署的方式,就是你在哪里做重复数据删除?第一个,应用源端,你的服务器,你应用的服务器,比如你一台文件的服务器,你数据的服务器,就意味着什么呢?从所有的备份源端出来的数据,就是经过重复数据删除的。第二种就是在被备份的起始端,我可以把重复数据备份在备份服务器上,我所有经备份服务器读出来的数据,都是经过备份服务器删除的。还有一种,我不想在备份源端或者备份服务器端有任何的改变,或者任何性能的影响,是不是直接给我一个设备,这台备份数据上就具备了重复数据删除功能,我们把这个叫做目标端的重复数据删除。我今天把备份数据删除备份在源端呢?经过最开始的地方,就可以把重复数据删除了,带来的好处,第一个,重复数据删除的效率很高,另外,备份窗口会节省。因为你从源端上已经判别出来这个数据已经开始把它做了一个压缩,或者做了数据缩减,就出来,所以你备份到经过网络上的窗口都会变短,对你带宽的要求,对你时间窗口的要求都会降低,这是备份源端的消除。不好的地方在哪呢?它有限制,你怎么去辨别说我一天过来的备份服务器上的数据有这么多,如果我今天应用源端上有一个非常庞大的系统,我每天都要去扫描它,看它有没有重复的进来,你扫描的时间一定会变得很长,所以在这种环境里面,大家更倾向于在一些小规模部署的时候,一台服务器上的数据量,或者数据库不要太大,你可以选择这个方式。但是如果你的服务器上的数据额很高的话,我劝你不要选择。但是在一些远程分支机构里面,你的数据量很小,也不是很大,你采用这种方式,我只需要部署一个重复数据删除的源端在上面,就可以实现源端节省数据,这是一个非常经济的解决方案,来解决你的问题。

另外一种方式,我今天说我不想在我的备份服务器源端做任何的重复数据删除,做一些可能会增大我服务器性能负荷的一些事情,我是不是可以把它备份在备份服务器端呢?也可以,你可以把它备份在备份服务器端,从这里出来的数据,再把它备份到后面的设备上去。这种方式呢,目前来讲,能够做到这种方式的厂家并不是很多,HP可以做到。还有一种,就是用户说了,我这样吧,我真的不想在我所有前端的备份的服务器上、应用源上做任何的可能会增加我性能、增加我负荷的事情,你给我一个设备,这个设备自己去做重复数据删除,也可以实现容量的节省,也可以实现低带宽、异地的自动化的灾难恢复,这种最好的选择就是把它提供一个重复数据删除功能的备份的目标设备,这一部分是基本上每一个硬件厂商都会去提供的。HP、IBM,还有其他的做备份服务器的。备份服务器部署在目标端的一大好处,所有的前端删除工作全由这台服务器里删,不会影响你的架构,而且对你的备份设备有更高的要求,你的可靠性怎么样,你的恢复性能是否能够应付我这么大的数据量,提出的要求可能会更高。

这是刚讨论完在什么位置删,各有各的好处,另外,什么时候开始删?是我数据还没有写入磁盘的时候,还是我把所有的数据都接到磁盘上以后再删呢?这里面就分为两种技术,如果是说我们在行业里面去定义它的话,如果说我的数据在写磁盘之前就已经删除过的话,这种删除我们叫做连线的重复数据删除,或者叫在线的重复数据删除,这是一种。另外一种,如果我把这个数据已经写入到我的磁盘之后,备份系统之后,我再去做删除的话,这叫什么?叫后期处理的重复数据删除。我们看一看这两种重复数据删除技术的特性,如果你采用连线的重复数据删除,你会怎么样?它的过程会非常简单,所有的数据进来的时候,就像有一个大漏斗,就是我先在上面有个过滤器,我把很多有益的数据块过滤到唯一的,写到磁盘上,这样写入的数据就非常少。这种好处是这个流程非常简单,对用户来说,你不需要有任何的操作,因为重复数据删除这件事情不需要你来掌控,所有的事情都是这台设备自己自动完成了,我接触到这个数据之后,我就可以立即进行复制,因为我进来的数据都做过重复数据删除了,所以我马上可以进行复制。另外就是我所有的数据写在磁盘上了,非常简单,都是已经进行重复数据删除过的唯一的数据块和地图,我恢复的时候,只要依据这个地图,就可以把数据全部重新组装回来,非常简单,但是有可能在恢复的时候影响你的性能,因为有一个组装,找寻数据块和组装的过程。

我们再看一下后期处理,就是写到磁盘备份系统以后再做重复数据删除,这种情况下很明显,你先写进磁盘,再从磁盘上把这个数据找到,再做重复数据删除的动作,再把它存下来,又有I/O的发生,你会发现你的重复数据删除变的很复杂,因为还有一个把数据接收下来的流程,还有一个流程做重复数据删除去写的流程,之后这些工作都做完之后,还要复制到远程去,这里面规划很重要,用户需要根据自己窗口的特点,怎么样备份、去除,还有复制的三个窗口之间,能够很好地隔离开而不影响,这个对用户来讲,管理难度就加大。它的好处也有好处,因为什么?因为它在磁盘系统上有一个完整的数据本,就是一个全本放在那儿,我先把数据全部都备份下来了,然后我再删,所以我有一个完全的数据副本在上面,如果我恢复的时候,如果正好你今天恢复的数据正好是昨天备份的,这个数据马上就抓过来,不用再做数据重组,这是它的好处。但是它的成本相对比较贵,管理更复杂,越来越多的厂商在放弃这种技术,转而把重复数据删除采用了连线的方式去做,比如说像HP、IMM、MC,重复数据删除的方式都采用这种方式。

在谈到删除的时候,还有一个,因为性能很重要,恢复的时候因为你要把这个数据重组,根据地图重组,抓回来的这个过程,你备份的时候需要把这个数据块打散,再去比对,再选唯一的,这里面的性能就是非常关键的因素,在重复数据删除的目前的解决方案里面,我们又可以看到两种,一种是单节点的重复数据删除解决方案,一种是多节点,什么是单节点的,就是第一代的重复数据删除的特点,他处理重复数据删除工作的时候,只有一个控制器来做处理。这样的话,你升级的时候就是一个很大的问题,要不你采用一种网关的方式,我就不管你后面到底配什么样的磁盘,我就给你一个网关,你后面的磁盘表现的性能跟我没关系,你爱怎么做怎么做,对客户不负责任。还有一种,我向你卖这台设备的时候,我已经针对控制节点所能够处理的磁盘I/O,或者所能控制的磁盘限制能力,就已经限制好你的磁盘能够最大扩展到多少啊!可能我在一个小规模的节点里面,内存啊,CPU啊,或者什么比较少一些,相应能够挂的磁盘的空间也比较少,如果头的控制能力大一些的时候,我就把后面给你配一个大一点的磁盘就能做了,这样的话,对用户来讲,实际上是一件很不公平的事情。怎么讲呢?如果我是小规模的应用,这种方式是无可厚非的,绝对可以做,我也推荐去做,因为成本比较偏移,但是如果在数据中心级的应用,每个用户都面临一种转型,就是从传统的IT支持部门逐渐向IT服务角色转换的时候,这种对以后未来不可预知性,或者未来数据量增长很大,我为了考虑到两三年这种可能会发生的事情,我必须要在今天去投入的时候就要买一个非常昂贵的时候,哪怕这个设备今天只是存了40个T的数据,但是我为此可能会为以后200T、300T的性能投资这个设备,我这个投入值得吗?但是如果不投入的话,可能明年这个设备就已经不能用了,我必须要新购设备。这就是单节点的时候,给用户造成很大的困惑。

相应在用户面临的挑战这种情况下,就对应的有一种叫多节点的重复数据删除技术的产生,首先我可以把多个节点,也就是多个控制器的重复数据删除的系统做一个整体的系统做管理,对用户来讲还是一台设备。但是我多节点的架构,它可以更多的去线性做数据量的吞吐和重复数据删除的工作,和容量的拓展,简单来讲就是横向扩展。就是我可以通过多控制器的架构,从小规模起步,随着未来两年或者三年,或者你不可预测数据会涨到什么程度,我先从小规模,几十个TB起,随着数据增长到200T的时候,我配备200个空间,但是我不会配备相应的空间我会把处理200T的数据的性能给你。这样用户就可以非常放心的从目前小规模的配置起步,然后以后随着你容量拓展的同时,也帮你提升性能,同时还可以做到附带均衡。这就是单节点和多节点技术的对比,实际上这也是第一代重复数据删除和第二代重复数据删除之间的非常大的区别。

所以在采用传统的重复数据删除技术,第一代,大概是在北美市场1999年或者2000年初的时候就已经产生的技术,但是直到现在,大多数厂商依然在用这种重复数据删除第一代的技术,这种第一代的技术,数据效率会非常低下,因为采用单控制器的架构,恢复的时候可能要从若干个数据块里面去做地图匹配,也没有一些更好的优化,那你的恢复性能,通常在第一段的恢复性能是一个最大的挑战,所以你经常看到很多厂家发布一些白皮书,或者一些数据的彩页的时候,你只能看到数据恢复不知道是多少。还有,第一代技术兼容性非常差,大家可以看到,我们重复数据删除部署的方式,可以备份在备份目标段,应用服务其段,在第一代中,这三种地方的部署方式是不兼容的,也就是说很多第一代的技术,我在备份源端采用的是一种重复数据删除的技术,在目标端采用的是另外一种。你说有没有一种方式把备份源端的数据传到数据中心去呢,目标端上的设备?对不起,不能做,因为两种技术不一样,你必须怎么做呢?你把备份服务端的数据恢复过来,还原,我再帮你把它送到数据中心,你再做重复数据删除。这样的话,你就对你的系统管理的效率非常差,而且你数据之间交换的时候必须有一个数据再重组、再还原的过程,带来一个最大的问题,网络带宽的要求会非常高。

现在在北美的一个市场上,大家在讲重复数据删除的时候,就已经在讲的是第二代重复数据删除技术了,那第二代重复数据删除技术,就是下一代重复数据删除技术,它要解决的问题就是第一代重复数据删除所面临的这些拓展性受限制啊,技术不兼容的问题啊,部署方式非常的僵硬啊,所以在第二代的重复数据删除里面,我们大家都可以看到,它具备以下几个特征:第一,横向扩展。横向扩展简单来讲,就是你的容量和性能可以同时去进行扩展,所以说你的初始的投入就可以从非常便宜又经济的方式做投入,但是也有未来你不可预测的数据的快速的增长啊,你需要大量的去处理的这个性能。第二,你重删系统所具备的高性能。因为你的数据增长量很快,我本身去做备份这件事情,也要花费我很多的服务器啊,以及网络带宽的占用啊,已经负荷很大了,你在备份这件事情上要再多一层,再做重复数据删除,所以性能往往是使重复数据删除技术面临非常大的挑战。所以在第二代重复数据删除技术里面,就要考虑性性能的提升和扩展性上,给了非常好的解决的办法。第三个,可携带的重复数据删除的引擎。什么叫可携带,很简单,就是重复数据删除引擎非常容易部署,这就是一个引擎,可以部署在一个备份软件里面,备份在应用服务器的源端,也可以备份在目标设备上,完成重复数据删除这件事情,这也是第二代重复数据删除技术要去做的。

另外,全域名的重复数据删除,包括你部署方式的选择,还有非常关键的,所有这些东西,你会发现第二代重复数据删除在把你重复数据删除这个领域不断扩大,规模不断扩大,在大规模的重复数据删除的IT架构下面,你怎么样做到统一的、自动化的透明的方式,对用户来讲也非常重要,这就是2.0第二代重复数据删除技术所要具备的特点。那是不是还有第三代?有,但是现在还没有开始,我先讲一下第三代的技术要走到什么程度,就是云。

我今天要给大家讲一下惠普的重复数据删除在数据领域保护里面的应用和惠普在数据保护里面针对重复数据删除的战略。我们的重复数据删除叫什么名字呢?叫StoreOnce,顾名思义,只存一次,很好地诠释了重复数据删除的定义,不是删除,而是只存一次。惠普的StoreOnce有哪些特性呢?它是因为要针对怎么去应对第一代传统的重复数据删除遭遇的瓶颈,它为了解决它而应运而生。第一代的问题刚才也提到过,就是因为产品无序地去做扩张,因为你的架构很僵硬,我只能做的是加设备,加设备,你技术不兼容性,就导致在你的IT架构里面存在很多的独立的重复数据删除的孤岛,我可能在虚拟化里面有一个孤岛,在远程办公室里面又有一个孤岛,在数据中心又有一个孤岛,这三个孤岛之间怎么做通讯,对不起,没有答案。所以说它就到了一个结果,就是你的扩展性很差,性能很差,而且最可怕的是单控制器的重复数据删除带来的这种风险,一旦你在做备份的时候,这一个单节点发生的故障以后,你的备份作业就会停掉。如果在一些小规模的应用里面,我觉得这个也是OK的,因为从来都是风险跟你的成本之间是互相要去平衡的。但是在数据中心的关键级的应用里面,高可用性是用户非常关注的特点,你不能想象,在一个大型的数据中心里面,你今天做备份的时候,停机了,你第二天来的时候,发现昨天的备份没有做,主存系统发生了问题,数据从哪来,怎么恢复,没有人知道,这是非常大的灾难。

所以我们惠普的StoreOnce作为第二代重复数据删除技术,它首先实现了第一个,一个重复数据删除引擎,就是说我无论部署在我的应用服务器源端,还是我的备份服务器端,还是目标端的服务器上,只有一个引擎,就是StoreOnce,通过StoreOnce,我们就可以在任何位置实现重复数据删除,而且去做数据块在几个不同的重复数据删除的领域当中去做数据块的移动,就是只删一次,数据块在整个保护当中也只流动一个。同时,它还提供了一种中央的管理方式,就是所有的重复数据删除的设备,或者你的架构,都可以在一个管理界面里面去看得到,包括你的复制。另外一个非常重要的一点,就是它实现了横向扩展的性能和容量,第二代重复数据删除,StoreOnce,尤其是StoreOnce2.0,采用了面向未来设备的重复机构,我可以从小规模部署起步,在你容量拓展的同时,提升你的性能,而且非常重要的一点,这是行业目前唯一一个可以做到的,高可用性。我采用横向扩展的架构呢,所以我总共配了四对八个控制器,最高,但是作为一个最初始的配置,送到用户现场的时候,我面向数据中心这一块应用的时候,也是双节点的控制器。在双节点的控制器之间,如果说你在备份工作的时候,因为种种原因,可能一个控制节点发生了问题,我另外一个控制节点自动把任务切过来,自动接管备份工作,所以你的备份业务是不会停机的,所以在面向应用数据中心应用的时候,不用担心故障,这是StoreOnce2.0的好处。

我们具体来看一下,我说了这么多,好像你刚才说的也没有横向扩展啊,性能很好啊,到底有没有一个指标啊?给大家一个概念,目前来讲,我们StoreOnce支持B200在Catalyst的支持下,我们可以实现每小时高达100TB的备份性能,这是目前性能最高的,只有StoreOnce可以做到,每小时100个TB。如果我们考虑到前端什么都不用管,在备份服务器上,都不要部署任何的软件的话,那你这台设备,本机的性能能做到多少呢?一台我们面向数据中心级的的话,每小时可以做到40个TB,就是纯粹的单台设备的性能可以达到40个TB,这也是目前业内最快的。我刚才提到,第一代重复数据删除里面有一个非常重要的问题,就是它的恢复性能很低下,在第二代,StoreOnce第二代重复删除技术里面,在这上面做了非常大的提升,我们通过惠普实验室的创新的算法和一些索引结构上的调优,所以我的恢复性能也可以做到跟我的备份性能相等,就是可以做到每小时40TB,这也是目前业界最快的一台做数据的重复备份设备。它还有一个非常大的,就是它是目前行业内首款,也是一个独有的高可用的特点,它可以做到数据之间的故障节点的切换,自动的切换,没有单点故障。这种业务影响呢,我们可以说一个大家比较容易感受的好处,如果你之前采用第一代重复数据删除里面,就是业界最快的一款备份的设备,第一代的,StoreOnce2.0跟它的性能相比的话,我们每天可以在备份窗口上为你节省六个小时,这六个小时你可以拿来做应用,6个小时什么概念?我们正常的情况下每天是8小时的备份窗口,你通过采用StoreOnce2.0,就可以帮你节省6个小时,你可以看到,这种性能上的提升和进步有多么大!

第二个,StoreOnce的特点就是灵活。首先,它可以实现任意位置的重复与消重,应用服务段、备份服务器和目标端,什么位置都可以。从灾备的考虑,因为很多客户面对法规遵从,尤其金融业的客户,我看到很多政府类的客户,也受到国家法规遵从的要求,必须有两点灾备,异地灾备,在异地灾备里面,我们可以从数据中心到多个灾备站点,这多个灾备站点里面的副本都是同步的。而且我们数据保护的策略应该非常的灵活,你可以在任何时间,任意的位置去删除,或者是去把它给并机到你已经过期的数据。

另外一个就是简化。我们通过按需付费的横向扩展,从小容量开始,同步增加容量和性能。可以使你的数据中心摈弃传统的叉车式升级的困境。而这所有的工作,我们可以通过备份台实现,联合重复数据删除,就是一个重复数据删除,唯一的重复数据删除的算法,仅在你的整个企业的IT架构里面移动消重的数据,只存一次,移动来的都是唯一的更新的数据块。我们从数据中心,可以管理到远程站点的所有的数据保护。对我们面向数据中心级的B6200来讲,它可以支持384个远程站点的数据,这个目前来讲,也只有惠普StoreOnce可以做到,可以你可以看到,越来越多的全球的大企业,在把惠普StoreOnce作为他们数据保护和数据存设备,这也是一个很重要的原因。

这是目前来讲HPStoreOnce产品家族线涵盖点非常全面,这个成本也是从小到大,我们可以把StoreOnce部署在我们的备份软件里面,实现应用源端的重复数据消重,也可以备份在备份服务器端,部署在DP上,我们也一样可以做到。在一些ROBO的环境里面,如果用户既需要本地的用户保护,又想把数据复制到数据中心,我们有StoreOnce2500小规模、小配置的作为本地的数据备份。面对中小型企业,或者小型数据中心的时候,我们会有StoreOnce41XX系统的产品,面对一些数据中心和稍微大的企业的话,我们有StoreOnce43XX的产品来帮助大家去解决这个问题,相对来讲,它的成本也会比较便宜。最右边这一款,很高的话,这个是我们专门为大型的数据中心去设计,去满足这种关键业务系统备份的磁盘备份设备,StoreOnceB6200,它可以每小时达到100个TB每小时业界最快的性能,同时也是行业内第一款可以做到自动化的磁盘设备。所以说HP为大家提供了一个非常完整的,从软件到硬件,从低成本到高成本,从满足现在的和满足未来的所有的这些数据保护的方案,我们已经全部都涵盖了,基本上你可以在HP找到你想要的东西。

这张图是我们StoreOnce,是我们面向大型企业的数据中心,面向关键应用系统的一块备份设备,有业界最快的备份和恢复性能,为用户可以提供端到端的数据保护,而它的备份的容量可以高达768TB,这是重删之后的,而且它有灵活的部署的方式。这么大的设备,还有包括所有的StoreOnce的设备,在IT架构里面,我们都可以通过单一的控制台来做其中的管理,它的备份速度可以实现每小时100TB,恢复每小时400TB,它有高达75%的性价比,所以如果你们采购StoreOnce这种设备的话,相信对大家现在、未来,还有成本上的节省,都会给大家一个非常好的解决方案,也是别人无可替代的。

这是一个我们事例,你可以看到,在这边,如果有一个节点坏掉的话,另外一个节点会自动接管。为什么会这么强大呢?我经常去跟用户讲B6200,我讲StoreOnce,用户第一反应就是你们怎么比别人强这么多呢,你们是不是有虚构的嫌疑?我说我刚才讲的所有的指标,都是在惠普上标准的官方网站上可以看得到的。它为什么能够实现这么卓越的性能和特性呢?首先,这个技术是由HP实验室自己去创新的,不是我们收购,或者是我们去OEM别人的,这是HP自己研发的一款产品。在这里,大概有涉及到了HP的专利技术有高达50多个专利技术,就是在重复数据删除里面有50多个,这是很惊人的。因为我们从第二代开始起步,基于第一代之上,有50多个专利,你可以看到,有非常大的改进。包括我们技术索引的架构,可以节省内存和IO的需求,也就是说你做重复数据删除的时候,你重复数据删除的性能可能要依托于I/O的性能,今天在实现同等性能之下,我可以比竞争对手采用更少的内存,采用更少的磁盘I/O,所以说我的性价比可以实现竞争对手的75%,这也是很重要的一个原因。另外就是它的快速恢复。

刚才讲了一些行业的数据保护方面的一些趋势,一些比较泛泛的行业内大家去看,真的如果是采用了HP的数据保护的解决方案,对用户的业务来讲,对你的数据保护的数据来讲,能够解决哪些问题呢?我们先来看一下,现在数据保护方面面临的几个主要的挑战,数据快速的增长,带来了很多的问题,第一个,你的数据备份窗口是不是八个小时窗口,你可以在八个小时窗口可以完成备份,第二个,你的业务部门在不断向你提出更高的RPO的需求,你是不是能够在他的要求的范围内快速把数据恢复,相应他业务的需要。第三个,我们商业的规模在不断扩大,尤其可以看到,中国的企业更多的在国外设置分支机构和厂,这些分支机构和远程办公室的数据怎么保护,怎么上收上来,这个问题怎么解决?另外一个,灾难恢复的工作怎么做?因为越来越多的法规,行业的要求,包括上市公司硬性的规定,金融行业强制的数据保护的要求,你在这种情况下,怎么做你的灾备,这些都是我们数据保护面临的四个主要的挑战。

所以我们又回到EST的调查里面,在2012IT投资优先级排序里面,IT决策者又一次把关注点在数据保护上,因为大家就是数据增长和IT投入上做一个最佳的平衡点,你怎么样节省IT成本的前提下,能够应对你的数据的大量的增长?所以你可以看到,在六个最受关注项里面,有四个都是跟数据保护有关的,改善灾难恢复,管理数据增长,增强信息的安全,改进业务连续性和灾难恢复。通过HP新一代数据保护解决方案,我们可以帮助用户满足备份窗口,满足40%的数据增长,还有用于管理的数据保护的员工的人数却没有增加,而你的IT是持平,或者很多的部门是在不断的下降。StoreOnce通过它无以伦比的备份速度,缩短你的备份窗口每天高达6小时。

这边有一个StoreOnce的成功案例,这是一个大学的成功案例,它采用了右边的是用户的评语,我就不再多讲了。大家可以看一下几个关注点,通过使用StoreOnce,他的备份的性能、备份速度比之前快了10倍,它服务器的停机时间减少了80%,它需要备份的容量节省到1/15,也就是说在我们做调查的时候,他的重复数据删除的效率应该是在15倍左右。而对他来讲,他的服务器的增长已经增长了5倍,但是他相应的IT管理人员只有两个人就可以管理这些服务器增长造成的数据的处理和日常的管理工作。所以说这样IT人员就可以多了2.5倍的时间不是做维护,而是做一些IT的战略的计划。

通过StoreOnce,我们可以去帮助用户满足快速恢复的服务级别的协议,就是快速恢复的SLA,因为系统规模在不断扩大,所以更多的数据需要在很短的时间内做恢复,而一个很可笑的事情是什么呢?大多数目前的备份厂商不注重恢复,只会给你讲我备份能够做到多快,我可以把你的备份怎么样,所有的焦点都集中在备份上,很少有人讲我的恢复是什么,我的恢复能做到什么,我可以帮助怎么样优化你的恢复的流程,很少有人这样讲。StoreOnce提供了非常快速的恢复的速度,我们全线的产品,基本上恢复速度和备份速度是非常接近的,在B6200里面,你可以看到,恢复速度和备份速度是一样的,所以可以高达40TB/小时的速度恢复数据。只有HP公开了恢复性能,其他都没有公开恢复性能,我们彩页上都是备份性能可以做到多少,恢复性能可以做到,两个指标在上面。我们HP可以提供节点自动重启的功能,确保你的恢复一定可以做,另外我们有单点故障,确保你的系统一直在可用的状况下。所以我们和我们最接近的竞争对手相比,他的优势也高达75%。

这是比较看重恢复的用户的案例,这是一个包装公司,通过它使用StoreOnce的时候,它恢复它一些图形设计的数据,它说它以前必须先恢复一个完整的备份和所有的增量备份,这个大概要花费多长时间呢?一周的时间,才可以把这个设备恢复到可用的状况,用StoreOnce备份的时候,将这个数据回回数据中心的时候,恢复只需要几分钟,减少了12倍,数据恢复提高了5恩倍,这样给图形设计工程师每个月增加20个小时的生产力,减少了容量的采购,而且也不需要部署额外的系统增加容量,部署在StoreOnce上面就可以做容量的扩展,所以很好地帮助优化存储的成本。

第三个,也是一直以来在数据保护领域大家都面临的问题,就是灾难恢复的问题。讲这个之前,我不知道在座各位的灾难恢复目前是怎么去做的。我之前一直在卖备份,备份实际磁带技术已经用了很多年了,几十年了,在一些大量的金融机构里面,采用灾难恢复的要求,都是通过磁带运输的方式去做的,就是把这个磁带在本地备份完,然后通过人工方式把它运输到异地去,这样的话,我就保证我的数据有两地的存放,可以应对我这种政策性强制的要求。在这种情况下,就带来两个问题,第一个,你可能在运输的过程当中造成你的数据丢失,这个我想在花旗银行啊,还有美国银行里面,经常隔两年会看到这种案例,在运输过程丢失了,大量的信用卡的数据被暴露了,带来什么什么样的损失,这个实际上就是一些传统的用磁带性数据灾难恢复的时候面临的问题。有些就说,为什么不通过一种自动化复制的方式,把磁带的方式复制到异地去呢?是技术不可行吗?技术是可行的,备份软件都支持,为什么不采用呢?就是它的备份软件带宽要求过高。要求30到40TB,如果要一个网络带宽传输的话,你算一算要多长时间,而且一定有要求,你通过传统的以太网传输的话,这项工作是根本不可能实现的,所以你看到,很多的传统的灾难恢复的策略,还都是采用运输磁带的方式。

通过StoreOnce重复删除的技术,我们可以帮助用户解决传统的问题,它可以基于低带宽,就是基本上可以用现有的以太网的带宽就完成数据复制,为什么呢?因为我们的数据复制是基于重复性删除的,我每天在网络上去复制的数据,并不是说真正把每天产生的几十个TB的数据全部复制到对方去,而是只传输唯一的改变的数据块,部署的时候,可能在本地有一个已经经过处理的磁盘的部署方式,在异地有一个灾备设备去做,我只部署两台设备之间的差异量,这样的话,每天要传的数据很少,至少会减少10倍左右,所以你会看到,大量的StoreOnce的灾难恢复的解决方案,都是基于已有的网络的以太网的带宽,4M、6M、10M,就可以帮助解决异地灾难恢复的问题。

这里面又有一个异地灾难恢复的广告公司的成功案例,他现在每天只需要花几分钟管理这个流程,而在过去,可能要需要一天的时间。对于远程分支机构的保护,实际上远程分支机构是我们最近通过调查,包括ESG的调查,会发现,越来越多的企业当中的数据都产生在从远程分支机构产生,有高达50%,甚至我以前看过一个调查,高达80%的数据都是分支机构产生的。但是在分支机构产生大量的数据,实际有一个很大的问题,大家都知道,在分支机构里面的IT的部署是非常少的,所以他没有办法提供专业的IT保护,所以说造成你备份啊,或者你做灾难恢复的副本都不可靠,而且经常备份操作是没有办法成功的,而且你也没有办法去检查他。

通过StoreOnce这种解决方案,我们就可以为复制机构提供非常强大的保护,大家看这个图就比较简单,这个图的左侧就是分支机构的数据或者部署方式,可以由大型的,中型的或者小型的,你可以通过这种方式,你可能只需要部署一个StoreOnce软件,部署在服务器上,走低带宽的方式,就可以部署到数据中心的大型的设备上。在这两种方式下面,你都可以发现在本地不用部署硬件设备,就只部署一个软件就可以了。如果他说我需要本地的数据保护我就可能怎么样呢?它通过本地部署一台可以重复利用删除的数据,把它部署在这个设备上,经过重复数据山删除之后,把它复制到数据中心来。所以你可以通过StoreOnce的解决方案,帮助客户应对各种需求的远程数据的保护,通过这一个解决方案,全部都涵盖掉了,所以说它非常的经济。

这是一个在国外的ROBO的案例,在瑞士、爱尔兰、法国、捷克、西班牙,他们的带宽最宽的才10M而已,通过这个带宽,在他们国家部署一台ROBO的设备,把它全部复制到在英国的数据中心去,英国部署两台StoreOnce备份系统。对于长期的,可能高达数十年十年的数据备份,把它规整到我们硬件的磁带库里面,这是一个非常典型的ROBO的案例。

所以通过数据保护,HP可以帮你去节省时间和金钱。我觉得这个经常会是一句空话,因为我们经常会说,省钱省时间,可能大大小小的广告都有,但是,我相信通过我刚才给大家的对于我们StoreOnce新一代数据保护方案的介绍,你就会知道,我们的时间和金钱的节省,都有非常多的事实和数据去做支撑。

在这边,想给大家讲一下,我讲这么多新一代的数据保护,全是在讲磁盘的数据保护的解决方案,大家是不是会有一个问题,那是不是意味着磁带就消亡了?是不是磁带真的就不需要了?答案肯定是不是的,那只是说不可避免的是说,磁带在你整个数据保护的架构里面,能够起到的作用在逐渐的被削弱,你会看到,大量的主要的磁盘备份工作在开始由磁盘来承担,但是磁带库,或者磁带这种解决方案,依然在你的数据中心里面是不可替代的一个解决方案。

未经允许不得转载:存储在线-存储专业媒体 » 张梅生:加速IT架构 向未来转型