重新定义存储经济学(第一部分)
wangfei 发表于:14年04月09日 17:59 [编译] 存储在线
2014年4月9日存储在线编译:本文是重新定义存储经济学系列文章中的第一篇。
在理想的世界里,我们可以忽略存储硬盘的成本,用速度最快的硬盘去储存我们所有的数据。但是不幸地是,那样的世界从经济学的角度来说肯定是不好的,我们需要一个更好的答案。
看看现在可选的方案,存储热数据的最佳位置是固态硬盘和闪存。从IOPS的角度来说,固态硬盘的性能比传统旋转磁盘的性能高出1000倍。从每TB存储容量的单价的角度来说,固态硬盘的价格比传统旋转磁盘的价格高出一大截,但是它的价格与企业级多级单元SATA硬盘的价格却相差不大。
存储:在成本和性能间寻求一个平衡点
显然,用户们需要在成本和性能间寻求一个平衡点。答案取决于大多数数据集的使用模式。有些数据远远比另一些数据更加活跃,因此就有可能建立一个经济高效的存储农场,而且它的性能还能满足用户们的需求。
答案就是规定各个存储层级:
1. 最高存储层级使用固态硬盘,目的是保证性能;
2. 由硬盘构成的第二存储层级保存着大多数的数据,它的存取速度要相对慢一些,但是存储容量的价格是最低的。
将数据中心里的存储资源分级使用并不是一个新的概念。但是目前存储环境中的文件结构的复杂程度是非常高的。云进入数据存储领域之后,情况就更加复杂了。多媒体数据将产生大量的小文件,因此跟存储容量的需求增长一样,文件数量的快速增长已经成为一个重要的问题。
Scale out拓展的办法就是自动化。将存储资源池虚拟化会让生活变得更加轻松,这也是数据自动分级实现成本经济效益的关键。这就提出了数据存储位置的控制问题,让它们可以被储存到快速存储媒介或是廉价的存储媒介之上。
大多数自动分级软件都可以由管理员设定的各项政策来驱动,比如根据数据已经存在的时间或设定具体的日期来迁移数据。自动化功能还可以决定如何根据使用体验和数据已经存在的时间去实现上述目标。这就为管理员减轻了控制数据的负担。
存储:自动分级技术的演变
早期的自动分级技术处理的是数据完整的逻辑单元数(LUNs),但是现在的自动分级技术可以处理目录、文件和文件的部分内容,大幅减少处理过程中产生的流量和等待时间。数据的流动是双向的,但是通常是从速度最快的存储层级流向数据最慢的存储层级。例如,假如有一个文件需要频繁被访问,但是那些访问的时间主要集中在一天中的某个时段之内,那么在其他时间将它移动到速度较慢的存储层级上肯定就能提高存储的经济效益。
根据做法的不同,数据转移的流量也不同。比如可以先不将速度较慢的存储层级上的数据副本删除,只是修改那些被复制到速度较慢的存储层级的数据,就可以减少数据流量。另一种减少数据移动的流量并有效提高容量和性能的做法是将所有的数据流都进行压缩处理。
自动分级软件可以处理基于SAN的存储层级和以太网存储。由固态硬盘和传统硬盘混合组成的SAN阵列可以使用自动分级技术。处理直接连接设备会有一些问题。这一点很重要,因为固态硬盘通常是直接与服务器相连接的。最新发布的软件解决了这一问题,即便是纯闪存阵列,也能很好地使用自动分级技术。
自动分级技术可以取代高速缓存技术,它最适用于数据流中有预测性的情况,比如每个月的月底移动数据的时候,或在某个特定时间开始某项具体的工作的时候。在低于LUN层级上使用自动化分级技术同样可以实现高速缓存技术的很多优势。
从成本的角度来说,自动分级技术可以减少存储硬件成本,因为系统所需的固态硬盘数量减少了。同时,完成同等数量的任务所需的服务器数量也减少了,因为大多数任务都是受I/O限制的。节省下来的成本可以被用于购买新的硬件和存储软件。
存储自动分级技术可以提供经济效率,而且不需要太多的管理。它还使得企业用户能够采用更加复杂的存储解决方案,比如在对象存储或云中增加第三级存储层级,或将数据迁移到廉价固态硬盘以形成第二存储层级。
在重新定义存储经济学的第二部分,我们将探讨如何利用自动分级技术满足大数据存储需求。