2014年4月10日存储在线编译:这是关于存储经济学的系列文章中的第二篇文章。
自动分级技术给大数据出了个难题
在第一篇文章中,我们了解到自动分级技术可以如何为企业的经营节省开支。现在,我们将要探讨的是,虽然自动分级技术有很多的优势,但是它也给大数据出了个难题。你的存储是一个不断变化的目标。如果才能既享受到自动分级技术带来的优势,又能够满足大数据的需求呢?
大数据一词涵盖了很多种毫不相干的信息。一方面,很多银行会通过检查数月来的交易模式以发现欺诈交易者,另一方面,很多零售商也在积极跟踪和收集消费者的店里的行为信息,以研究消费者的购物模式。在第一个例子里,银行信息是行为的一种长期性记录,而在零售店的例子中,那些信息只在很短的时间里有用。然而,那些数据都可以被归到大数据的范畴之内。
这就自然而然地引发了大数据面临的困境,即大数据的存储问题。你会将某个元素保留多长的时间?保存在哪里?等等等等。IT业界将大数据看作是一组数据流,那些数据流一直在更新和流动。我们面临的一个难题是,我们必须高效地将数据流区分出来,然后决定针对不同的数据流采取不同的行动。我们显然不能将一切信息都保留下来,而且肯定不能将所有的信息都保存在速度超快、价格也超高的闪存设备上。
区分数据流的目的是为了兼顾管理精度和管理效率,或者说在这两者之间找到一个平衡点。我们可以为单一的目标设置政策,但在那种情况下,元数据管理的成本可能就会非常高。另一方面,LUN级别的区分可以建立起一种机制,从而一次性达成所有的目标。
首先要做的事情是为每一个数据流建立一个位置和保留政策。这将取决于那些数据被访问的速度需要达到多快的程度,还有其他的一些因素。在上述零售店的例子中,数据一旦被创建出来,它的价值就在不断流失,因为目标也许是实时创建个性化店内广告以提升营业额。在那种情况下,数据会直接进入内存中(in-memory)数据库。
其中一个难题是大数据通常都是分布在数量众多的并联服务器上。在并联服务器网络中,对不同的服务器实施不同的政策比在连网存储中对合并数据实施不同的政策要难得多。
一旦经过分析处理,数据就会被传输到永久存储中。由于内存内数据库需要非常高的带宽,因此它必须使用闪存或是快速固态硬盘。其中一个原因是,在数据恢复过程中,利用其它技术重新加载高达TB级的数据所需的时间可能会长达数个小时。但是,当数据流被丢弃或储存到价格低廉、容量巨大的存储系统中时,显然是需要很多时间的。
数据分析还会从原始数据中创造出新的数据流,这个过程也应该是受控的。这些数据流的价值评估和保留政策通常会因为原始数据的不同而不同。
由于并行数据流的数量太大,因此整个控制机制必须是自动化的。这就是自动分级技术进入该领域的原因。这是一种在大型系统中有选择性地自动移动数据的方法。
自动分级技术控制着所有的数据,对于正在使用的服务器来说它就是一个资源池。在那个资源池中,也许有纯闪存阵列、固态硬盘和廉价硬盘,甚至还可以将磁带库也包含进去。可以通过存储虚拟化来增加资源池的容量。数据移动则通过一系列政策来控制。
创建以及随后执行这些政策是一项实质性努力,它需要使用LUN层级的政策而非对象层级的政策,但是在很多情况下,应该使用的却是对象层级的政策。政策可以由超大规模数据环境下的分析应用来创建以减少人工干预和出错的概率,或者由自动分级软件自己去控制。
自动分级的结果应当是相对可预见的,而且在各个数据流之间实现平衡。从经济的角度来说,这会对安装成本造成一定的影响。最近云市场的服务价格发生了一些变化,那些变化表明使用消费级SATA硬盘的大容量存储服务是非常经济的。
硬盘价格很可能会呈现出分级的现象,每台服务器中的PCIe 固态硬盘(每TB容量3000美元)将位于最高级,随后是容量相对更大但速度相对较慢的多级单元SATA 固态硬盘(每TB容量500美元到1000美元),最后是容量巨大的SATA硬盘(每TB容量100美元)。现在的自动分级技术或许很难将最顶级的本地固态硬盘融合到存储资源池中,但是虚拟存储局域网和软件定义存储已经开始解决那个问题了。
由于物联网的发展,我们已经看到感应器大爆炸时代即将来临的迹象,业内观察员们预计,数据流将大幅增长。以自动分级和压缩为关键功能的数据管理和存储虚拟化对大数据的处理很重要。
在第三篇文章中,我们将探讨用于储存最热数据的存储设备价格的下降将如何改变存储层级工艺。