本文作者Howard Marks是Networks Are Our Lives公司的首席科学家。这家公司总部位于新泽西州霍博肯,从事顾问工作。1987年以来,他一直专注于系统的分析和写作。
DOSTOR存储在线4月6日国际报道:我们如今所依赖的许多存储技术都或多或少地使用某种形式的变更块跟踪机制。快照、复制(尤其是时间点类型的)、自动分层和重复数据删除都要分辨发生改变的或不同的块,并用某种特别的方式来处理这些块。问题是,虽然部分还是部分,而块则已经不是块了。
部分问题是,当存储人员一听到"块"的时候,他们首先想到的是512字节的SCSI(小型计算机系统接口)块,并认为只迁移、复制和存储那些发生改变的块才是有效率的方式。不幸的是,当存储系统复制数据或拍摄快照的时候,它们所迁移的块更像是文件系统分配单元而不是SCSI块,而且通常远大于512字节。因此,用户经常看到他们需要比原来想的更多的快照空间和WAN(广域网)带宽,这样才能利用存储系统的其他功能。
究其原因,问题出在存储人员太滥用块这个术语了,就像网络人员在即使有"帧"、"数据包"这些更准确的术语的情况下依然非正式地使用"包"这个术语。虽然我们会使用"Chunk"来代表那些比较大的数据单元,但是我在几乎所有报告上看到的都是"只有块发生改变"这种语句。
在存储系统中使用多大的"Chunk"来用于分配单元,这一点不同的存储系统有很大的区别,而且对我们如何有效地使用基于chunk的功能也有很大的影响。如果你运行的是SQL Server数据库应用程序,进行许多随机数据库更新,那么你在数据库上更新的每一个记录都会在磁盘上写入一个8K字节的已更新SQL Server页面。
欲想了解更多,请阅读:专家博客:较为常见的数据块误区(下)