数据存储产业服务平台

归档研究 你到底需要多少个归档(下)

相关阅读:归档研究 你到底需要多少个归档(上)

数据复制时应考虑的风险因素

计算副本数量

硬错误率和设备故障只是公式的一部分。还有很多其他的东西需要考虑,它们包括:

悄悄地数据损坏

一批不好的媒介

自然灾害

造成无法复制的网络故障

人为错误

故意的数据破坏

以上各种因素

现在我们来分析一下以上各项因素。

悄悄地数据损坏

这是一个大问题,因为它意味着数据损坏的时候,你可能好不知情。如果你只有一个副本,那就真的出问题了。 如果你有多个副本,你必须利用外部检验工具来进行检验,然后复制数据,以免所有的副本都被损坏后问题就变得更加严重了。

一批不好的媒介

硬盘行业已经很久没有发生过这种事情了,但是以前确实发生过这样的事。如果你在同一个媒介上保存了两份副本,如果媒介存在制造缺陷的话,那么那两份副本就存在丢失的风险。 如果你打算使用同种媒介,至少应保证使用两批批次不同的媒介。

自然灾害

不管你是住在地震区、龙卷风区、飓风区、洪区或是其他自然灾害区,几乎所有的人口密集区都存在自然灾害方面的风险。如果你只有两个副本,而其中一个副本被破坏了,你将只能从其中的一个副本来进行复制。 考虑到媒介的可靠性和数据数量,这可能会是一个大问题。当然,你可以在导弹竖井里建一个计算中心,那样即便遇到核攻击也没事,但大多数企业都没有能力建造一个能够抵抗象F5龙卷风那样的自然灾害的计算中心。

网络故障–阻止复制

通过复制拥有两个数据副本只对网络有利。这里有3个潜在的问题:

你是否拥有足够的带宽来复制新数据?

你是否有足够的带宽来复制新数据以及向出现故障的设备重新复制数据?

你是否拥有足够的带宽在发生自然灾害时复制所有的数据?

很明显,拥有3个数据副本从成本上来说是不现实的,但还是应做些规划。

人为错误

所有人都会犯错,数据归档也可能会因为人为错误而丢失。如果你只有两个数据副本,那么就可能发生这种问题。 你如果保证数据不会因为人为错误而损坏或丢失,这是一项软件功能和测试方法。

故意的数据破坏

不管是某位员工用工具故意破坏还是黑客入侵系统后修改或删除数据,拥有多个数据副本都显得非常重要。每个数据副本都应配备检验数字,保证数据没有被故意破坏或悄悄地损坏。

综合因素

最糟糕的情况可能是同时发生上诉问题中的多个问题。大多数人都为上诉问题中的某一个问题做好了应对计划,但并未针对同时发生多个问题做好准备。 你在决定应该拥有几个数据副本时应该考虑这个问题。

最后的想法

那么你需要多少个数据副本呢?将数据保存在什么样的媒介上?将数据副本保存在何处? 这取决于你的数据归档的大小。如果你有1PB的数据,你也许用两个企业RAID SATA硬盘就够了。 另一方面,如果你有50PB的数据,而且希望数据完好率达到99.9999999%,那么在企业磁带上保存2套数据副本是不够的,因为某些数据可能会丢失。数据副本的数量取决于你能够承受的风险有多大以及你的预算有多少。

你也许情愿承担较高的数据丢失风险而将更多的数据归档,那也许是你的企业的政策。另一方面,如果你是一家医药公司,而食物及药品管理局要求你将所有 的药品试验信息都保存下来,如果不幸有些数据丢失的话,那么你就有的忙了。如果你的数据数量很多而且对数据完好率有很高的要求,比如 99.999999999%,那么两个副本显然是不够的,可能三个数据副本都不一定够。 媒介类型也很重要。在non-RAID磁盘上保留三套数据副本可以解决自然灾害的问题,在企业磁带上保留三套数据副本可能是为了解决媒介故障的问题。然 而,如果三套数据副本都位于飓风区,或者遇到员工故意破坏的情况,那么你所有的努力就都白费了。

由于可变因素太多,因此这个问题没有固定的答案。有些可变因素如人为错误或故意破坏是很难量化的,但有些东西比如WORM媒介显然还是有帮助的。 另一些可变因素比如自然灾害也许可以量化,但是那个过程既复杂又成本昂贵。所有相关员工都必须了解这些风险和问题,然后根据预算做出最佳的选择。

现在回到我经常提的那个问题:在廉价的、可靠性较低的媒介上保存两套数据副本是否比在企业级媒介上保存一套数据副本更好一些? 我认为,对数据数量较大的归档来说,从媒介可靠性的角度来说,在企业级媒介上保存一套数据副本比在廉价的、可靠性较低的媒介上保存两套数据副本更好一些,因为媒介故障发生的概率可能比自然灾害和恶意员工故意破坏发生的概率更高。

所有人都必须了解这些潜在风险,对于大型归档来说,要想保证100%的数据可靠性,代价是非常高昂的。正如培根爵士所说的,知识就是力量。

未经允许不得转载:存储在线-存储专业媒体 » 归档研究 你到底需要多少个归档(下)