数据存储产业服务平台

专家博客:重复数据删除技术的哈希冲突(下)

本文作者Howard Marks是Networks Are Our Lives公司的首席科学家。这家公司总部位于新泽西州霍博肯,从事顾问工作。1987年以来,他一直专注于系统的分析和写作。 

DOSTOR存储在线12月20日国际报道:就像我的朋友W.Curtis Preston说的那样,两个数据块错误地产生同样哈希值的概率比Jessica Alba(好莱坞女星)变成我的女朋友的概率还要低。不过,后者毕竟还是可能的。我和Alba女士都还活着,不过鉴于我又老又胖,还是住在新泽西州的技术宅男,而她是Jessica Alba,因此我们之间的可能性非常低。

Curtis甚至还让一个数学博士创建了一个工作表来计算哈希冲突的概率。为了碰到一个10的15次方分之一概率的哈希冲突而导致的磁盘读取错误,你需要5乘以10的16次方的数据块,或8K数据块形式的432YB的数据。我用一个高精度计算器来计算,发现在一个4PB数据(8K数据块)的重复数据删除系统中,发生一次哈希冲突的概率是4.5乘以10的26次方分之一,差不多相当于完美媒介下的磁带读取错误概率。

现实是,人们倾向于避免概率极低的灾难性事件,接受那些概率相对高而后果相对较轻的事件。因此,我们采煤来发电,即使我们知道矿工会死而人们会得哮喘病,但是我们不会去建核电站。一次哈希冲突不会破坏你所有的备份数据。它只是意味着一个数据块在恢复的时候会恢复成错误的数据,就像磁盘或磁带错误那样。

如果是备份3PB数据,你要备份10的26次方次你才会碰到一次哈希冲突和一个损坏的文件。这对我来说还是一个可以接受的风险。毕竟,我每天早上都会去遛狗,在遛狗的过程中总有可能会被街上的车子给撞到–有可能是被Jessica Alba开的车子,如果她有看到我的博客的话。不过,我不会去计算这个可能性的。

本文接:专家博客:重复数据删除技术的哈希冲突(上)

未经允许不得转载:存储在线-存储专业媒体 » 专家博客:重复数据删除技术的哈希冲突(下)