要掌握数据存储的真实成本,那么就得考虑这个数据对象在完整生命周期内的存储需求,这是最好的方法之一,通常也叫做“数据存储的生命周期成本”。它包括了贯穿于所有存储介质之上的技术、过程和工作流的开销。这种自下而上的分析模式可以洞悉数据对象在一段时间内的存储活动,不但能够帮助我们理清数据存储的真实成本,而且还能够告诉我们在采购存储产品过程中应该关注哪些问题。
对于那些在企业中负责存储策略的管理者来说,最常见的挑战莫过于来自于主存储的压力。因为绝大部分数据产生自数据中心的主存储,并从此开始生命周期的演进,因此采购者往往把他们的资金集中投向主存储设备。但实际上,用户用于存储的总费用额度远高于存储设备最初的实际采购成本。更糟的是,在相似的存储应用环境下,不同产品所产生的费用也相距甚远,这也造成用户估算工作的困难,结果是主存储的总成本计算经常出现很大的误差。主存储比较常见的问题是没有优化且利用率较低,而当用户扩容或部署了更多的存储设备,亦或者使用了更多的高级功能(比如在多个设备之间实现复制或拷贝)之后,问题就会变得更加突出。同时,用户为了管理存储而付出的时间和精力也将直线上升,尤其是需要做哪些费时费力的工作时更是如此,比如数据迁移。
当然,数据存储的成本不仅仅来自于主存储这么简单。实际上,我们存储的每一比特数据都依赖于一整套的信息服务生态系统。最明显的例子莫过于数据保护系统,它通常由几个不同的部分组成,包括如跨磁盘和磁带的多级介质管理,以及数据离线的保存与管理等。构建全面的数据保护系统所需的开销是很大的,有时候用户花费在主存储上的费用与之相比或许都会相形见绌。
除了数据保护之外,还有很多其他的费用开销。法规遵从和保护知识产权的需要使得用户不得不将数据保存更长的时间。为了在更长的时间周期内维护更多的数据,企业必须构建一整套的基础设施和流程以便进行数据信息的归档、搜索和恢复。容灾是另一项不能忽视的数据保护功能,而且费用也非常高。容灾不但需要复制引擎、冗余的存储设备,而且要消耗大量的带宽资源,这都会给用户带来沉重的成本负担。
当下,有一个热门概念叫做“虚拟机密度(virtual machine density)”,Taneja Group公司做过大量的针对服务器虚拟化的基准测试,用来衡量虚拟机的承载密度。他们的理念认为不同的虚拟化平台效率是差不多的,因此只要硬件的资源足够,相应的也就可以运行更多的虚拟机或者实现更好的性能。所以,当我们把硬件、软件许可、管理员工作以及数据中心资源消耗等因素做通盘考虑之后,也就能核算出最终的费用开销。在存储行业,我们看到一个类似的概念叫做“存储密度(storage density)”。通过全面的分析容量、系统、带宽开销以及人员工作量,“存储密度”能够帮助我们衡量一个产品或技术帮助用户消减数据管理成本的效果。
尽管这不是一个全新的理念,但直到最近业内才开始使用这样的方法,尝试将许多独立的存储产品组合在一起进行统筹分析。从某种程度上说,这也反映了企业IT行为的转变。随着虚拟化应用逐渐成为市场的主流,数据保护的技术和方法也必须相应地随之改变。同样,数据存储产品也朝着更优化、性能更高、以及更通用的方向发展。
很多厂商都在大力宣传自己的产品有多高的存储效率。但他们也经常误导用户,衡量存储效率通常需要通过软性的、定性的数据进行分析。简单的通过一两个维度和参数并不能全面衡量效率高低,比如单纯的强调“容量优化”并不可取。我们评价一个产品是否具有较高的存储密度或存储效率,也不是一句话就能说清楚的。
近期我们不断听到业内传出存储密度纪录被刷新的消息,我认为这些活动也反应了市场的整体情况。在存储功能不断趋向融合、弹性存储架构大行其道的背景下,各厂商都在努力提高自身产品的价值和竞争力。毫无疑问,借助更先进的存储功能和更大的存储密度,用户完全可以进一步的优化自己的存储规模和基础架构。由此可见,在这场比拼中用户才是最大的赢家。