云存储是在云计算概念上延伸和发展出来的一个新概念,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中就需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系统。
与云计算系统相比,云存储可以认为是配置了大容量存储空间的一个云计算系统。云存储系统具有如下特点:数据安全,超强的可扩展性,按照使用收费,可跨不同应用,自动切换故障,易于管理等。云存储主要应用于备份、归档、分配和共享协作等四大领域。
云存储系统是一个多设备、多应用、多服务协同工作的集合体,它的实现要以多种技术的发展为前提。根据云存储的特点及其应用领域,主要的云存储技术涉及到存储虚拟化,分布式文件系统,集群存储,存储集中管理,异质平台协同,自动分级存储等方面,当然还有重复数据删除、数据压缩等技术。
一、存储虚拟化
存储虚拟化(StorageVirtualization)最通俗的理解就是对存储硬件资源进行抽象化表现。通过将一个(或多个)目标服务或功能与其它附加的功能集成,统一提供有用的全面功能服务。典型的虚拟化包括如下一些情况:屏蔽系统的复杂性,增加或集成新的功能,仿真、整合或分解现有的服务功能等。虚拟化是作用在一个或者多个实体上的,而这些实体则是用来提供存储资源或服务的。
存储虚拟化是一种贯穿于整个IT环境、用于简化本来可能会相对复杂的底层基础架构的技术。存储虚拟化的思想是将资源的逻辑映像与物理存储分开,从而为系统和管理员提供一幅简化、无缝的资源虚拟视图。
对于用户来说,虚拟化的存储资源就像是一个巨大的“存储池”,用户不会看到具体的磁盘、磁带,也不必关心自己的数据经过哪一条路径通往哪一个具体的存储设备。
二、分布式文件系统
Hadoop分布式文件系统(HDFS)是一个设计为用在普通硬件设备上的分布式文件系统。它与现有的分布式文件系统有很多近似的地方,但又和这些文件系统有很明显的不同。HDFS是高容错的,设计为部署在廉价硬件上的。HDFS对应用程序的数据提供高吞吐量,而且适用于那些大数据集应用程序。HDFS 开放了一些POSIX的必须接口,容许流式访问文件系统的数据。
HDFS是主/从结构的。一个集群有一个名字结点,也就是主控制服务器,负责管理文件系统的名字空间并协调客户对文件的访问。还有一堆数据结点,一般一个物理结点上部署一个,负责它们所在的物理结点上的存储管理。HDFS开放文件系统的名字空间以便让用户数据存储在文件中。内部,一个文件被分割为一个或者多个数据块,这些数据块存储在一组数据结点中。名字结点执行文件系统的名字空间操作,比如打开、关闭、重命名文件或目录,还决定数据块从数据结点的映射。数据结点负责提供客户的读写请求。数据结点还依照名字结点的指令执行数据块的创建、删除和复制工作。
三、集群存储
集群存储是将多台存储设备中的存储空间聚合成一个能够给应用服务器提供统一访问接口和管理界面的存储池,应用可以通过该访问接口透明地访问和利用所有存储设备上的磁盘,可以充分发挥存储设备的性能和磁盘利用率。数据将会按照一定的规则从多台存储设备上存储和读取,以获得更高的并发访问性能。
集群存储的优势主要体现在提高并行或分区I/O的整体性能,特别是工作流、读密集型以及大型文件的访问,通过采用更低成本的服务器来降低整体成本。集群存储有两种实现方式:一种是硬件基础架构加上软件;另一种是专用集群存储,是构建在NAS基础架构之上的,但是通过操作系统实现集群存储。
四、存储集中管理
云存储管理平台要求支持跨数据中心的部署和管理,并支持跨数据中心的用户访问调度、数据迁移、数据异地存储备份等功能。
支持集中管理,云存储管理平台部署在云计算的中心机房,存储节点可以部署在各地的机房中,管理平台对各分点机房的存储设备可以统一管理调度。
通过云存储管理平台,用户可以方便的了解云存储系统的各个节点的服务情况,包括各节点的容量和性能(读IOPS、写IOPS、读流量、写流量)等信 息,让用户实时了解域内资源信息,运行状态,从而可以操控这些资源;同时及时了解资源的异常,有必要时可以采取适当的措施保证其正常运行。
五、异质平台协同
当前各种存储方案与技术十分繁杂而多样,光从一家企业内部可能同时存在各种不同类型存储装置的状况便知一二,更何况不同存储设备供货商间的存储环境一直存在兼容性问题,所以喊了多年的存储整合,仍旧难以如企业需求所愿,这也是存储虚拟化与云存储推展上的最大阻力。
虽然存储云端在某方面很容易跨入(例如在线存储与备份),但另一方面想要透过私有云存储来达成全面性之存储整合,似乎不是那么容易的事情。对此,想 要成功完成存储虚拟化目标必须改善企业既有IT存储环境,其改善重点不外共通分享的存储架构、亲和的使用环境、简洁单一的操作界面,以及效能卓著的存储方 案等。其中,不论是单一操作接口或统一标准的API,更是解决不同存储装置间协同问题的关键之一。
CDMI是云存储全新标准接口,由国际存储网络产业协会SNIA制定。对于云运算来说,CDMI提供了通用云运算管理基础架构,同时原本信息管理的 重点已逐渐从存储管理转移围绕在数据管理上。 CDMI标准则可以协助用户将特殊诠释数据(Metadata)标记在数据上,该诠释数据会告诉端点存储供应商,什么样的数据服务提供该数据(例如备份、 归档、加密等)。透过CDMI标准接口的执行,用户可在不同云端供应商间任意移动数据,不再需要忍受不同接口中重新编码的痛苦。
六、自动分级存储
提高存储管理效率已经成为许多企业首要解决问题,自动分级存储成为最有效的基础技术,它指的是在不同磁盘类型和RAID级别之间迁移数据块的功能,这可满足性能和空间使用之间的适当平衡,快速将数据放到合适的地方并避免所谓的热点。
作为这项技术受到广泛关注,在不同层级的存储介质之间,比如FC磁盘和SATA磁盘之间,移动数据需要实现全自动化的迁移流程。
在分级数据存储结构中,存储设备一般有磁带库、磁盘或磁盘阵列等,而磁盘又可以根据其性能分为FC磁盘、SCSI磁盘、SATA磁盘等多种,而闪存 存储介质(非易失随机访问存储器(NVRAM))也因为较高的性能可以作为分级数据存储结构中较高的一级。一般,磁盘或磁盘阵列等成本高、速度快的设备, 用来存储经常访问的重要信息,而磁带库等成本较低的存储资源用来存放访问频率较低的信息。
七、小结
云存储与云运算一样,必须经由网络来提供随选分派的存储资源。重要的是,该网络必须具备良好的QoS机制才行。对于用户来说,具备弹性扩展与随使用 需求弹性配置的云存储,可节省大笔的存储设备采购及管理成本,甚至因存储设备损坏所造成的数据遗失风险也可因此避免。总之,不论是端点使用者将数据备份到 云端,抑或企业基于法规遵循,或其他目的的数据归档与保存,云存储皆可满足各方的不同需求,所有云存储技术的发展都要确保实现这一目标。