2013年12月17日存储在线编译:所谓分析,就是指企业对数据及其存储提出的正确问题吗?
这看起来似乎是个不常见的问题,不应该将它作为抽象的问题来对待。如果那些问题得出了出乎意料的答案,那么未来的成本节约和发布业务辅助性IT技术之间就会存在明显的差异。
数据是有价值的,现在这条定律还是有效的。下图(摘自Freeform Dynamics发布的题为《存储无处不在》的报告)显示出300家中型企业的数据一直在增长。 (大型企业和小型企业的情况也类似。)
为了支持更多的数据,大多数企业IT部门都聘请了专家来规划、监控和管理存储资源。由于多级存储、性能、优化和合规性等问题将这项任务变得异常复杂,很多企业不得不投资存储技术以确保数据的质量和可用性。 实际上,随着数据复杂性的上升,大多数企业不得不招聘更多的员工。
Freeform Dynamics关于数据存储的统计表
与经营有关的用语在这里是逐步递增的。请记住,即便是中型企业也可能拥有数百TB的数据。 因此,存储就变成了一项纪律,企业用户必须保留很多代的数据,以保证业务连续性。这几乎比为保证业务连续性而付出的成本更加重要。这在一定程度上说明了为什么企业要花如此多的成本去招聘存储行业的员工和投资存储技术。
然而,如果从另一个角度来提问,情况可能就不同了:
• 一家企业应该多长时间存储一次数据?
• 一家企业应该将同一批数据存储多少次?
• 有没有另一种方法可以更经济高效地存储数据?
这些问题都是相关联的,因为现在的存储环境通常会采用这样一种态度,即为了保险起见会经常去存储核心数据。毫无疑问,这样做是为了降低风险。 但是这样做本身是否存在风险?是否经济高效呢?
实际背景
某些实际背景是有用的。为了说明现在的实务会造成什么样的结果,我们先做一些简单的政策假设:
• 有1TB的交易数据或核心数据
• 每天进行一次完全备份,每周7天都不例外
• 保留过去30天的备份记录
• 每3个月保留一份数据备份副本,作为进一步的备份存档
• 将现在和以前3个月的完全备份副本保存在线下,作为灾难恢复的备份
首先从1TB的数据量谈起(记住,这只是一个例子),这意味着:
每周要备份7TB的数据(每天1TB)
• 每月要备份30TB的数据
• 加上前3个月的3份备份后,数据量增加到120TB
• 如果算上灾难恢复的备份副本,备份的数据总量就达到了240TB。
• 也就是说,相同的数据将被存储240次,数据存储倍数为240。
太高了吗? 这个方案如何?
你可能会说这样的数据存储倍数太高了。下面我们来修改一下假设条件。 如果每天只有20%的数据发生变化或被添加(因此有些企业仍然坚持完全备份与增量备份一起使用的战略,这也可以将恢复数据降低到最低程度。),那么数据存储倍数就会有所降低:
• 每天的数据备份量只有0.2TB,在前一天的1TB备份基础上增加0.2TB
• 那么每周的增量备份量就是1.4TB
• 每月的增量备份量为6TB
• 加上前3个月的月备份,备份总量增加到24TB
• 如果加上灾难恢复的备份,备份总量就是48TB,也就是说,这种方案的数据存储倍数为48。
48倍的数据存储倍数显然比前一个方案更加高效,但是它的风险也很高。如果你一开始就知道要想能够驾车上班你就必须再购买47辆(甚至2、3辆)汽车的话,你还会去购买汽车吗?
另外,别忘了上面计算得出的数据存储倍数都是简化计算的结果,目的是为了说明问题。它们并未反映或包括:
• 磁盘利用率/性能效率
• 快照,虽然快照可以减少需要保存的备份副本的数量,但它也会让每天的数据存储量增加10%到20%。
• 合规性
• 数据增长或新数据的容许量:例如,每一条推特消息最多只能包括140个字符,但是与你的公司有关的推特消息可能有很多很多条。同样,分布式计算、语音、移动设备和其他媒体都会变得比以前更具相关性,它们需要更大的存储空间。
关键的问题是,数据存储倍数会因为现有存储方案中的存储技术、基础设施和员工等因素的经济效率的提高而上升。在那种情况下:
• 你的企业知道应该将特定数据存储多少次才合适吗?
• 是否考虑过这个问题?
• 是否有人知道经济高效/风险高效的数据存储倍数是多少?
• 针对不同类型的数据,数据存储倍数是否也不同呢?
企业应该将数据储存多少次?
存储管理员并不想“超量存储”,但是这种方法显然得到了合规性官员的支持,他们声称你不能经常去存储同一批数据。实际上,现代存储技术已经在可靠性方面得到极大的改善,但是过去的存储做法还没有跟上来。
即便是政府指定的管理机构比如国会图书馆或大英图书馆也不想保留太多的数据存储副本。为了便于讨论,现在不妨考虑一下不同数据存储倍数对应的效率:
• 在当今这个数字环境下,只保留1份数据原本显然是不够的。
• 保留2份数据副本要好一些(因此才存在灾难恢复)
• 保留4份数据副本也不错(2份源副本,2份灾难恢复副本)
• 保留8份数据副本(4份源副本和4份灾难恢复副本)比保留4份数据副本更安全,但是有些人可能会说,再多保存4份数据副本干什么呢?
• 如果保留的数据副本超过8份,存储的经济效益的边际效益会显著下降
• 48份数据备份明显太多了,240份数据备份简直就是浪费了。
然而,在这种情况下,有些数据会是不同的。真正的难题是将变化了的数据与没有发生变化的数据区分开来,并且利用合适的方法去保护它们,同时兼顾到数据恢复时间方面的要求。 即便在考虑到这一点之后,上表所列的最后两个项目仍然反映出很多企业没有将它们的存储实务升级到与存储技术提高后的可靠性相匹配的程度,或者利用新的数据保护解决方案将需要存储的数据总量降低到最小程度。
在这种情况下,对整个企业的所有数据甚至所有企业的数据实施相同的数据存储倍数是不可能的。不同的企业和不同的数据需要不同的数据存储倍数。 例如,银行的核心数据对数据存储倍数的要求可能会比中小型制造商或零售商的要求更高一些。在可能会大幅降低技术成本和人力资源成本。这说明,没有一种存储方案是适合所有的企业的。
然而,如果你一开始就确定了成本效率和数据存储倍数的目标,那么就有可能形成一个成本高效的数据存储战略,并且确定该战略的具体实施方式。