在开始关于归档的讨论前,先探讨其进行定义似乎并不必要,不过并不其然。在早期的计算机时代,归档被理解成一种过程,即将数据迁移至磁带,并送至远处用于数据的长期保存。然而在今天,归档基于不同的上下文环境有着不同的理解方式。归档可以是很简单的Microsoft Outlook的“自动化存档”,将陈旧的数据迁移到相对更为廉价的存储,或是更加传统的长期保存数据的离线存储。在云计算的语境下,我们会将其定义成把归档数据存放到位于第三方提供的场所,从而以可接受的数据访问速度获取更低的成本,改善数据保护能力,或者两者皆是。
长时间究竟是指多长?
不过,和上下文语境无关的是归档这一概念的含义,就是指时间–通常是很长一段时间。不过“长时间”是一个相对的概念。对于大多数金融数据这可能意味着 7年,而对于制药研究而言可能意味着20年,对于一些医疗记录和核相关的记录则可能是50年,甚至更久。总之,在磁盘上将数据保存10年以上的时间从成本上是不可行的,即便是在云环境下。因此为了本篇论述之用,我们将“长时间”定义成在1年到7年之间。对于数据存放要求超过7年的,磁盘系统只有在特殊的应用环境下才会被加以考虑。这种特殊的应用包括地理空间数据(比如石油和天然气开采影像),医疗镜像以及航空维护日志,在这些应用中虽然访问频率很低,不过在某一时刻取回数据的可能性很大;因此,从15年之久的磁带上恢复数据所需的时间和难度显然是无法接受的。
价格和性能间的取舍
基于云的归档提供了在成本和可访问性之间恰到好处的平衡。至于磁带,这种传统方式多年以来仍旧是存储数据的最廉价的途径。一盘传统的LTO磁带保存 1TB数据的成本大约为35美金,存储在离线存储上每个月的成本大致为25美分。这种价格即便是最便宜的云磁盘也无法比及的。而在宕机事件发生后,从归档磁带恢复时间一般为第二天待送达后加上加载磁带并恢复所需的时间。这意味着如果用户要存取相应的数据,他将会要等上大约一个工作日的时间。
而从另一方面,对于云存储,其成本以每月10美分每GB起价(取决于具体容量)。该成本逐步累加直至数百TB,不过这仍旧比在集中化的数据中心中自行购置、部署并运维磁盘阵列的成本要低。有鉴于磁带的恢复时间以工作日计算,存储在云存储端的数据可以以秒计算。对于一些应用,这或许是在价格和性能之间的一种理想的平衡。
云的优劣势
然而,在考虑全盘接受云归档之前,IT部门应当权衡使用云技术作为内部归档的优劣。从技术角度讲,云服务商无法实现那些在内部也无法部署的系统。因此举例来说,企业或许会选择部署分层存储的基础架构,在第三层使用大容量的SATA磁盘来实现每GB的低价存储。通常来说,如果企业不敢冒着丢失和远程站点之间的连接,他们仍会主要依赖内部的解决方案, 企业可能有合规要求严格的数据安全性监控,抑或是远程延迟无法保障数据的检索要求。其实有着非常多的限制,不过仍有不少应用可以将云归档作为理想的选择。
IT部门应当酌情考虑对于迁移到云环境的工作,但要避免过分乐观而忽略了潜在的挑战:这是一种从以技术为主向以服务水平管理为主的转变。习惯于进行技术型选择和部署的IT员工通常希望专研云供应商的体系架构,并且强调产品或技术层面的部署方式。很少会有人会非常要求服务担保,因为供应商具有管理云基础架构的全部义务。IT部门实际上不应当关注在底层的技术上,这种底层技术已经在相应的服务水平合同上加以体现。根据经验,员工的注意力会逐步从底层的细节上升到上层的管理上。
服务是关键要素
因此,服务水平管理是是否使用云归档还是原本也运营模式的关键要素。在从云归档供应商采购服务时,你需要考虑以下服务水平方面的问题:
在线时间。对于绝大多数应用,3个9或4个9的可用性就已足够应对业务所需。假如你需要5个9的高可用性,这种数据访问性的要求可能无法使用在归档层上。存储在归档层上的数据通常会定义为非关键性的。关于在线时间的要求在很大程度上决定了供应商应当具备多少基础架构,因此这会对托管的成本造成重大影响。毋庸置疑的是,需要明确数据存取的实际时间、访问模式以及宕机所会造成的损失。这些计算机结论可以和各种保障系统在线所需的成本进行比较,基于这种比较可以很容易地调整或拒绝是否采用云环境。供应商通常在无法满足服务水平协议(SLA)时退回托管费用的部分款项或给予其它形式的补偿。不过这种警告可能隐藏在合约中,务必仔细阅读。
可访问性。可访问性和在线时间并不完全一样。存储系统可能运行正常,不过可能由于子部件造成一项应用的不可用。假如你需要冗余或数据链路的多项冗余,举例来说,你可能在支付后发现后备方案无法满足应用所需。因此请确保服务水平中包含端到端的数据可用性。
性能。量化你的应用所需的IOPS并且将其纳入到SLA之中。IOPS可以通过平均或者峰值活动状态加以测算。假如你要求峰值时刻的IOPS保障,你可能要为此支付供应商更多的费用。一些供应商会以量计费,不过许多企业不喜欢这种不确定的账单方式,可能会受到极端情况的影响。绝大多数企业可以接受一定数量上的运作限制(尤其是针对归档层的存储)以获取成本优势。在这种情况下,SLA只保证一定的IOPS而非最终用户的性能体验。假如应用要求超过了合约规定的 IOPS量,这就绝对是企业IT部门的问题了;当然可以通过购买额外IOPS的方式来满足。
数据恢复。和内部的应用一样,IT部门需要详细说明基于云的归档的恢复点目标(RPO)和恢复点目标(RTO)。这和正常在线时间有关,但同样和意外事件相关,比如数据损坏或者虽然没有影响整体在线时间但是影响到个体应用程序的部件故障。供应商一般都有默认的RPO和RTO,对于归档层而来一般都是足够的。此外,毋庸置疑的是,需要明确业务单元所能容忍的各类的数据丢失或应用故障。在很多时候,这会比你认为的要长。
灾难恢复(DR)。如果云归档是用于离线复制存储来满足数据冗余的要求,你可以不考虑该层灾难恢复的策略。不过购买者需要注意:绝大多数的托管存储并不包含任何灾难恢复事故的防护。如果托管数据属于混合云存储中的活动数据,灾难恢复规划是完全必要的。托管服务供应商可能定期备份所有数据,不过他们通常不会循环备份离线站点中的数据,即便做的话也是以很少的频率(比如每月一次)。虽然在数据中心中做到SAS-70合规中的灾难恢复非常困难,但也绝非不可能的事。托管企业提供的灾难恢复通常要显着地增加额外的成本,并且会快速改变托管业务的经济情况。请确保数据不会遗留在具有风险的地方。
备份和恢复。即便托管服务供应商定期备份数据并且频繁地循环离线存储数据,IT部门也并非完全没有风险。托管企业通常只有有限的备份软件和磁带技术。这意味着其备份形式(硬件、软件或者两者兼备)可能和你的IT系统并不匹配。假设IT部门尝试从供应商的磁带中进行恢复,可能由于没有足够的基础架构支持而造成严重的延误。请考虑好在最坏的情况下的解决方案。
兼容性。需要特殊合规规范的归档数据也可以用在云托管上。你可能需要确保数据存放的媒介不能改变。你或许要严格限定存取规范,并且可以追溯和审计;遵照SAS-70的供应商可能有这样的流程。
固定成本和可变成本。归档较之于使用自有的基础架构,其核心收益之一就是你只需支付你使用的存储。这一指标会受你使用的多少的影响,但其也有最小的固定成本。
从磁带转向云归档
很清楚,对于将陈旧的数据存放在相对昂贵的内部阵列的那些企业,云归档显然很有吸引力。问题在于是否需要将基于磁带的归档迁移到云端。大型企业可能通过数以百计的离线磁带实现归档操作。将所有这些磁带取出,读取数据并迁移到云归档基础架构的工作让人望而却步。这里还有一个前提,就是供应商有充足的硬件来读取所有磁带,部分磁带的格式已经被淘汰。此外,没有哪家云供应商可以在托管这样庞大的数据的同时,接受和大型磁带库相同的成本。磁盘压缩和数据重复删除技术可能会非常有用,不过成本上的差异仍使得磁带的成本只有其的一个零头。
即便从磁带转向云归档的阻碍很大,云归档仍不失为一种可以考虑的方式。超过7年以上的磁带在保存上代价高昂,并且可能有各种问题。最佳实践显示企业需要在每五年读取并重新写入磁带,来确保格式准确以及数据可以被读取。这是一项需要加以考虑的工作。比如,有着10,000份磁带归档以及每5年一周期的更新,企业需要在每年更新2,000份磁带。每天大约是6盘磁带,这虽然可行,但这属于年复一年而又不会带来生产效益的工作。此外,问题的关键在于检索的概率。一些企业考虑到恢复操作可能非常麻烦,允许磁带被废弃,不过前提是恢复数据的概率以及丢失数据的风险。在另一方面,假如你知道恢复操作是无法避免的,你现在就可以考虑选择时间,预留经费来从磁带迁移到云端,这可以在以后节省下大量的时间和精力,甚至应对一些突发情况。
并不是说磁带已经不适合用作归档了。其在绝大多数情况下仍旧是最低成本的解决方案。此外LTO中线性磁带文件系统使得磁带可以扮演“第四层”存储的新角色,因此其可以在云(或者数据中心)中作为额外的一层提供给存储的0、1、2、3 层。在云归档环境中,这可以有效地生成混合云并对很少访问的数据提供相对快速的访问(比如分钟级),而成本却和磁带类似。磁带也会有内置的压缩技术,并支持加密和一次写入多次读出(WORM)。使用自动化的分层软件,数据可以自动化地迁移带归档层。
考虑到不可避免的意外事件
迄今为止,我们已经描绘出云归档服务美好的前景。通常一份投入一份回报,不过并不全是这样。企业应当考虑将数十TB的数据交给供应商后,其无法兑现承诺合约的结果。当然供应商会赔偿一小部分,不过小额的赔偿款很难弥补真正的损失,以及对IT部门声誉造成损害。并且突发事件可能会一开始就终止合约,供应商可能不会为无法满足特定的性能水平支付赔偿款项。因此规划中还应当包含备选的托管功能,无论是内部的备用系统或者另一家供应商。云归档并不属于高风险的方案,不过聪明的企业凡事都会准备在前。
相关链接一:云归档考虑的核心问题
– 云归档在可用性和成本之间达成了一种平衡。虽然放弃了最低的成本收益,但其提供可供接受的数据访问性能。
– 使用云服务商要求IT部门从管理设备向管理服务等级进行转变
– 清晰地定义服务级别是成功进行云归档托管的关键
– 企业需要在意外发生时有合适的退出策略
相关链接二:归档和备份
虽然许多IT部门仍认为其陈旧的备份磁带属于“归档”,然而在归档和备份数据之间仍有特定的使用场景和访问性能要求的差异。
备份是为了保护正在使用中的数据;假设数据必需从备份中恢复,其通常在备份创建后很快速地完成。备份数据通常只有很短的保存周期。
归档是将一系列数据保存很长一段时间,用于合规规范、企业管理或作为知识产权。归档数据很少被访问使用,不过可以进行检索,从而特定的数据可以相对快速简易地恢复。
存储网络行业协会对备份和云归档服务给出了明确的定义:
“云备份中,云只是简单的数据备份仓库;而在云归档和保存中,云端会进行一系列的活动确保长期的数据保存、保护并且确认数据的有效性。”