技术讨论: 将数据备份、灾备和归档区分开
中关村在线 发表于:13年12月20日 11:00 [综述] 存储在线
2013年12月20日存储在线报道:备份和灾备或者业务连续性有何不同?是否大多数业务部门认为他们是一样的?
Jon Toigo: 备份是保护数据资产的一种方式,同时,对数据资产的保护是灾备计划或者业务连续性计划的一部分。丢失了数据就意味着丢失了业务。因此,备份也成为了数据冗余策略的一部分。
企业的大多数信息用一两种方法就可以保护。第一种是更换策略。假如说有人不小心将可乐泼在了服务器上然后短路了,用户可以购买一台然后替换它,或者提前在边上放置一台备用的服务器,一旦需要就换上。
这样的方法对于数据来说并不现实,对于数据来说,它不能被替换。如今,你可能会惊讶于许多公司还用着50年代的计划,“如果遇到了紧急情况或者我们的楼烧坏了,我们会让所有的员工一起重新输入发票信息以保证我们的发票系统能快速恢复。”
非常有意思的概念,但是在如今互联网盛行以及以24/7方式运营的时代,你甚至没有时间去重新录入那些发票数据。因此,你无法替换数据,唯一能做的是让这些数据成为冗余的。用户可以事先做一份拷贝,并将拷贝放在另外的地方。最有效的办法就是使用备份。可以备份到磁带上,因为磁带是可以移动的备份数据存储介质:放在盒子里,然后运到远程安全的存放场所。
那么,你认为什么才是真正意义上的归档?很多公司把它们的那些旧的备份当做为归档,这其中是否有所疏漏?
Toigo:我们可以把归档分成两类,我估计你所提到的那些数据的集合从技术角度来讲可以被认为是第一种归档。一些公司认为他们的备份—某一时间点数据的快照—就是归档,因此它们习惯于只保存旧的备份,被将它们视为归档文件。
然而事实上,归档应该包含比备份集更多的功能。比方说,你能对归档进行搜索,找到某种特定的数据,或者在所有数据中找到某一系列的信息。备份却很难做到这一点。
归档软件根据某种规则把数据逻辑地整合到一起。它提供索引信息来帮助实现搜索及发现功能。它常能让你更灵活地组织数据。
总的说来,归档在数据组织整理和发现搜索方面提供了更大的颗粒度,这一点与备份是有很大区别的。备份仅仅是数据在某一特定时间点的拷贝,然而归档拥有其他额外的属性,我把它认为是第二类的归档,它也因此被称作是“深度归档”。
第二类归档
Toigo:没错,它也被称为是“动态归档”,这可能把问题搞得更复杂了。它是使用磁带作为文件系统,用磁带做文件服务器,LTFS,线性磁带文件系统。
目前市场上有很多产品都宣称能减少需要用于备份的数据量。果真如此么?
Toigo:是的,你说的就是重复数据删除技术。该技术曾经一度被一个非常非常聪明的人认为是对备份管理系统的浪费。传统的备份是针对全卷的,就是说你会对所有数据都进行备份。第二个晚上,你又会把那所有数据备份一遍,目的是捕捉到变化的数据。然后第三个晚上,你再次对全部数据做备份,用来捕捉那些变化的或增加的数据。
你会不断重复地这样操作。假设这个备份有1TB的数据量;那么到周末,你就不得不找个5TB或6TB的空间来存放备份下来的数据。
但是问题是,对于大多数拷贝而言,90%的数据实际上是重复的。
因此,如果我们能够将那部分数据除去,就可以把5天备份产生的5TB数据缩减到1.5TB,这对于精简磁盘空间当然是有好处的。
重复数据消除技术能找出那些相同的比特或文件或其他相同的数据,选择最近的版本保存,并丢弃其他拷贝。通过这种方式就缩减了信息的数量。这项技术是有帮助的,但同时你会担心应该如何恢复数据,或者说怎么把数据从消重的状态中取出来变成可读的模式。
在有些情况下,这个不成问题,但是有时由于算法压缩了数据,因此在提取数据时需要相反的算法。这实际上会增加灾难恢复情况下数据恢复所需要的时间。它同时也增加了复杂性并需要用户有登陆使用该备份软件的能力。
我不想让过程这么麻烦,现在的情况是我的数据中心受损了,我需要的是能尽快将数据恢复到可用的状态,使用新技术自有其优势所在,但坦率地说,我对重复数据删除技术不是特别热衷。
此外,许多我的金融行业的客户们也不会对他们的数据进行去重操作,这是由于美国证券及交易委员会的规定,他们担心律师搞不清什么是重复数据删除,反问,什么是重复数据删除。
然后他找到IT,IT的回复是,“是的,我们的确用了重复数据删除技术,有些时候我们也会从消重后的数据里恢复。”得到了这个消息,股东就会和法官说,“根据法律,我们是不允许提供修改过的金融数据的,这样的操作实际是违反了SEC条款。没有证据证明消重技术不会修改数据本身。”
其实是否会修改数据本身并不重要。事实上它的确可能不会修改,但这不会阻碍负责价值1100万美金案子的律师来证明它有。当然他们也不会花这么多钱在"证明重复数据删除技术没有改变数据的事实"上。
消重的确有效果吗?从广泛的角度讲,答案是肯定的,但使用增量备份的方法也能达到类似的效果。这就是说只用对每天改变的文件进行备份。
这和重复数据删除很类似,除了没有做一个完整的备份和将每天的增量进行去重操作,都是拷贝了改变的数据。事实上是,我这几天一直在想,备份是不是真是我们应该选择的方法,当然我们说的是传统的备份模式。
备份本身将所有的数据都收集起来,整合到一个容器里,称为一个备份文件,然后将这份文件存放在任意的存储介质上。恢复的时候则需要当时进行备份操作时候的软件将数据恢复回来。这是一项耗时的工作,因此需要给它足够的时间以完成。
如今,在有类似线性磁带文件系统(LTFS)这样的产品,我们就可以将需要备份的文件直接拷贝到该文件系统上。我们甚至不需要一个备份容器来完成这样的工作。这就给了我们一种全新且具有创新精神的方式来完成一份数据的拷贝。