闪存数据存储:让磁带从归档宝座上坠落
ZDNet存储频道 发表于:14年09月18日 15:21 [转载] DOIT.com.cn
Facebook的Jason Taylor说,他想用闪存固态盘来作为归档介质,这无疑是一颗重磅炸弹,但他的理由却是有一定道理的。
Facebook用户在他们的相册中保存了大量照片,并且很少访问这些相册。但是当他们某天想要查看这些照片的时候,他们希望是快速而直接的,不管这些照片是否已经保存了有五年时间之久。
理论上来说,只有一种闪存存储融合了Taylor想要的这些属性:低成本、长期、可靠的存储和高速访问。
目前有两种归档介质,磁带和磁盘,当不访问的时候将其离线,因此几乎没有功耗。一旦归档介质被访问的时候,它就要消耗电能,电费是一项很重要的考量,尤其是当你保存了数PB的数据,在未来几年内还会突破EB级。
磁带归档是多个驱动器及成百上千个离线磁带插槽组成的磁带库。当需要一份文件的时候,机械臂可以找出磁带盒的位置,然后将它交给一个加载驱动器,加载到磁带的适当位置,这样可以访问到该文件。
让数据容量翻番
从本质上说,磁带式最廉价的归档介质。与磁盘驱动器不同的是,磁带盒没有昂贵的嵌入式驱动器或者电机。磁带可以安全地保存数据数年甚至是数十年之久还坚固耐用。磁带还可以压缩数据,让磁带盒实际存储数据量翻一番或者翻两番。
磁带库也不错,它只有几个耗费电能的驱动器,机械臂也不会消耗多少电能。这意味着磁带库只用很少的电力和冷却就可以与一台在线磁盘驱动器阵列保存相同量级的数据。
当然,磁带库要占用数据中心空间,这需要成本,但与基于磁盘的归档相比,磁带归档仍然在总拥有成本上低得多。
因此,一直到最近,使用磁盘来归档的想法都被认为是可笑的。然而,有两项先进技术改变了这个局面:重复数据删除和闲时磁盘停转。
重复数据删除:在删掉重复数据字节方面,重复数据删除要比数据压缩好得多,它可以让磁盘取代磁带,用于备份和针对短期保护需求的数据存储,例如恢复丢失的文件或者更换损坏的数据。
重复数据删除可以实现对备份数据或者VDI数据高达5:1的数据精简率(对于图片和结构化数据来说这个比例要稍低一些)。再加上磁盘高速访问数据的特点,这足以引发用磁盘批量更换磁带用于备份用途了。
闲时磁盘停转:当需要的时候,磁盘开始旋转并且访问数据,这个过程要比在磁带库中找到一个磁带快得多,因为你要让机械臂找到驱动器,加载,然后放到合适的位置。
尽管磁盘容量只达到了8TB,未来可能利用叠瓦磁记录等技术来实现10TB容量,而且每一次容量的提高都会降低磁盘保存数据的每GB成本,但磁带提高密度的步伐却更快,IBM已经展示了容量高达154TB的磁带盒。
Wikibon顾问宣称磁带“面密度的增长速度接近30%,而相比之下磁盘只有9.6%”。
磁盘不旋转就不会耗能,这意味着重复数据删除和磁盘停转的成本将在接近磁带存储的成本。虽然磁盘在用于数据归档方面仍然不如磁带具有的成本效益和可靠性,但是很多情况下,归档数据访问速度是一个优先考虑的因素,磁盘开始被越来越多地采用。
不过,用户可能会喜欢一个低成本归档数据而不失磁盘速度优势的方法。他们会说,磁盘停转对于数据访问来说还不够快,这也许好于磁带,但这就好比将散步与爬行相比一样,你真正想要的是一种可以冲刺的存储介质。
一些归档使用实例都选择了蓝光光盘作为归档截至,但我们知道,这是少数情况,并非主流归档介质,这是Facebook的例子。
闪存的闪光点
对于归档技术人员来说,闪存吸引人的地方在于,将字位添加到一个闪存单元中会降低成本并提高容量。一个闪存晶圆有固定的表面积,通常来说一个闪存单元的大小是差不多的,不管是保存1字位(SLC)、2字位(MLC)或者3字位(TLC)。
这听起来不错,但是每一次你向闪存单元中添加一个字位,你都会降低访问速度,并且缩短它的生命周期——也就是在再也无法使用前可以写入的次数。
持续开发更小的闪存单元,以提高提在一个物理区域(在闪存芯片和相应的闪存晶圆上)内可保存数据量,会使得这个问题变得更加严重。
下面这张图显示了大小不同的MLC和TLC闪存的耐用性差异:
闪存耐用性排名
这张图还显示了MLC和TLC闪存的耐用性差异,TLC闪存耐用性是以数百次写入衡量的,MLC闪存则是以数千次写入衡量的,因为制程工艺朝着2X纳米领域发展,也就是29纳米到20纳米之间的范围。
对于数据重写接近于零的归档场景来说,这无关紧要。
闪存成本正在下滑,有些人说闪存成本下滑的速度快于磁盘成本,重复数据删除和压缩可以进一步降低闪存成本。主数据闪存存储系统可以利用重复数据删除而避免影响数据访问速度,而磁盘阵列并不会以相同的方式重新删除冗余数据,因为这会延长访问时间。
因此,高访问率的主数据存储正在从磁盘向闪存迁移。但是这并不适用于归档,因此在归档场景下,磁盘和闪存都可以使用重复数据删除。
关于TLC闪存成本下滑率的推断显示,大约2017年它将在成本方面赶超SAS磁盘,下滑速度仍将快于磁盘,到2020年下探到更为廉价的SATA磁盘成本,在下个十年还不太可能与之匹敌。以下表格显示了这个趋势:
这张来自NetApp的图表显示了随着时间推移TLC闪存和SAS磁盘的价格变动。两条曲线与SATA磁盘价格改变曲线是相关的,后者随着时间推移保持1.0的常态。
这里可以看到,TLC闪存的成本仍然高于磁盘,磁盘的成本仍然高于磁带。因此TLC闪存不太可能取代磁带作为一种归档介质。
宏图愿景
Wikibon的顾问认为,闪存也许会被用于归档数据,但只是针对保存元数据的大型对象,批量数据仍然保存在磁带中。他们将这种双生技术理念称为“Flape”。
“磁带与闪存的结合,针对大型对象或者文件,将不仅提供更低的成本,而且性能也要高于基于磁盘的方法。”
“这种方法的关键,是将掩埋在磁带盒中的元数据保存到一个闪存层中,它可以指向所需数据在磁带中的位置。结合近线磁带文件系统技术,我们相信这种方法将为合适的用例提供更好的商业价值。”
Flape的硬件成本
一张来自Wikibon关于硬件成本的表格显示,看一看10年累积硬件成本,纯磁盘归档的成本是550万美元,而纯磁带的成本仅为80万美元。
磁盘加闪存的成本可以达到730万美元,而闪存加磁带也就是Flape的成本为260万美元:Flape胜出,如果你需要高速数据访问,和最低的每GB存储成本。