本文首发于《信息存储》2006年度专辑上,未经许可,谢绝转载。
1、 引言
各种海量数据应用,如数字音频和视频、Internet信息服务、科学试验和高性能计算、虚拟现实和企业信息化系统使存储需求的呈指数级增长。UC Berkley (加州理工大学贝克利分校) 2003年研究表明,未来3年内所产生的数据将超过过去4万年中产生数据的总和,而且93%的新生成的信息为数字形式。数据爆炸性增长使存储技术日益成为IT应用的核心之一,计算机系统的设计重点也从传统的以处理为中心转移到以数据应用为中心。应用需求推动了旧的存储结构不断完善,新的存储结构不断涌现:从成熟的直连存储(DAS)、附网存储(NAS)和存储区域网(SAN),到新的基于IP的SAN和对象存储等,它们都在应用需求的推动下产生和不断发展。
新型网络存储技术的应用极大地提高了信息存储系统的性能和容量,但数据增长没有止境,数据的种类也在不断地扩展:越来越多的非结构化信息不断出现,包括企业的各种报表、账单、电子文档、网站的各种元素、图片、传真、扫描影像,以及大量的多媒体的音频、视频信息等等。统计表明,来自交易中的数据年增长的速度为61%,而其他各种信息的年增长率高达92%。数据的爆炸的增长导致存储系统容量的持续增加,对于企业与组织来说,不但要控制数据存储的成本,而且面临如何有序地存储、管理并利用这些数据的巨大挑战,尤其是那些大量的非结构化数据。
如果一个企业无法将这些数据进行有效地管理,则可能面临生产力不断流失的危机:统计表明,企业员工为了完成自己的工作而用于寻找信息的时间平均占整个工作时间的30%,这等于员工每周40个小时的工作时间缩减成了28个小时;另一方面,企业和组织也希望对这些数据进行有效的控制,保障数据的安全,挖掘数据的价值。因此,数据存储的挑战变成了数据管理的挑战,即从如何保存好数据变为如何寻找所需要的数据。为了适应这种转变,必须对整个存储系统的数据进行更好的管理, 建立快速的数据查询和内容检索系统,将其转换成可以用来在商业领域赢得竞争优势的有价值的信息资产。
2、 内容管理系统
提到数据管理,大家首先想到的是数据库技术,但实际上这只为企业解决了15%的结构化数据管理问题,85%的非结构化数据怎么来管呢?目前,这是企业内容管理系统的职能所在。
内容管理是借助信息技术,实现内容的采集、创建/更新、存储、发布、应用的过程,而内容管理系统是能够支撑内容管理的一种工具或一套工具的组合。内容管理的对象是以各类非结构化数据为主的数字内容:相对于存储在关系数据库中的结构化数据而言,内容包括范围更加广泛,包括企业的各种文档、报表、账单、网页、图片、传真、扫描影像,以及大量的多媒体的音频、视频信息等等。与业务信息系统中大量用于交易记录、流程控制和统计分析的数据相比,内容具有某种特定和持续的价值,这种价值在共享、检索、分析等使用过程中得以产生和放大,并最终对企业的业务和战略产生影响。
中文信息处理软件厂商TRS 将内容管理定义为:实现对各种环境下以各类非结构化和半结构化数据为主的内容的综合管理,提供内容采集、创建、加工、存储、传递、组织、服务和反馈等内容全生命周期过程中所需各项功能,以及元数据管理、智能检索和分析、数字版权和内容安全等专项技术,使内容得到高效利用和增值,给内容所有者和消费者带来效益。
可见,内容管理不是某种单独的创新技术,而是许多先进技术的综合应用,它涵盖企业内联网 (Intranet) 、因特网 (Internet) 和企业外联网 (Extranet) 应用,大大突破了传统信息流管理软件、办公自动化软件以及文档管理软件的应用范围、使用效果和商业价值。内容管理解决方案重点解决各种非结构化或半结构化的数字资源的采集、管理、利用、传递和增值,并能有机集成到结构化数据的商业智能 (BI) 环境中,如 ERP,CRM 等,内容管理解决方案的终极目标是实现内容价值链的最优化。
分析表明,内容管理软件将成为下一轮IT市场竞争的热点。META Group 预测,到 2006 年,全球 2000 家知名企业与组织中的大约 60 %将进入企业内容管理(ECM) 的战略框架。到 2007 年 ECM市场收入将达到 23 亿美元, ECM 服务市场将达到 70 亿美元,技术+服务总额接近 100 亿的规模。
尽管内容管理软件从功能到架构,已经超越硬件,成为ECM产业的价值所在,但它必须依靠与硬件(尤其是存储系统)集成为一体化的解决方案。
3、 网络存储技术的发展
3.1 存储技术的发展
1987年,加州理工大学贝克利分校的Patterson教授将“分块”、“交叉存取”以及冗余容错等技术加以集成,使用廉价的小型磁盘存储器构造出其性能优于IBM3390等大型磁盘存储器的存储系统,称为磁盘阵列。磁盘阵列相关技术引发出近十年来存储系统蓬勃发展的局面:90年代开始,各家公司争相产品化,制造出包括卡式,盒式和其它形式的许多型号、品种的磁盘阵列,广泛用于主机和服务器中,开创了大型存储系统的先河。
与此同时,网络的高速发展,推动了网络存储系统的发展。美国科学家在执行HPSS(高性能存储系统)计划时提出了“附网存储”的思想,认为数据的独立性要求存储系统、存储设备独立于服务器和用户机,而处于同等地位的第三方。这一思路经过演变,将服务器功能简化并增加磁盘阵列以扩大容量和提供容错能力,专供用户作文件服务器使用,这便是NAS。NAS并没有从根本上改变C/S模式,所以在存取数据的速度上没有显著提高。为改变这种I/O路径依旧的观念,诞生了另一类网络存储系统,这便是以网络为存储系统内部通道的SAN。
90年代中期,HP、Sun公司提出了一种用高速光纤网络连接磁盘存储器组成的存储系统,这便是SAN。它采用网络路径取代总线,因而提高了存储系统的速度,并具有很强的可扩展性。但是,由于目前的网络多为以太网,FC网较少,两种网的协议不兼容,因而限制了它的普遍使用。SAN的构思孕育了将单台磁盘存储器直接入网的创意,因此又引发了“对象”式存储设备的构想。
3.2 对象存储技术
基于对象的存储(Object Based Storage Device,OBD) 技术是最近几年提出的。卡内基梅隆等多所大学和IBM等公司正在进行该技术的研究,它的思想是将文件系统中操作磁盘的部分程序裁剪并移入到磁盘存储器中,使之成为一个包含数据和操作的对象,而驻留服务器中的文件系统上层只做文件的属性管理。
一个存储对象是存储设备上多个字节的逻辑集合,它不但包括了数字对象的数据,还包括访问数据的属性、属性描述、数据特征和阻止非授权用户访问的安全策略等。对象大小可以变化,它可以存放整个数据结构,如:文件、数据库表、医学图像、或多媒体数据等。存储对象具有文件和块二者的优点:像数据块一样在存储设备上被直接访问;通过一个对象接口,能像文件一样,在不同操作系统平台上实现数据共享。对象存储系统在基于文件级的数据布局、服务质量的灵活性和可管理等方面有很大的改善。
对象存储实现了存储功能从主机到存储系统的迁移。如图1所示,在SAN或DAS中,应用程序首先进行定位,指出要访问的文件名,由文件系统将文件请求转换为扇区块请求,再向存储系统发出存取扇区块的请求,这种方式定位逻辑和文件系统都位于主机中。在NAS中,存储系统中带有文件系统,其中的文件通过网络共享的形式提供给主机,与SAN相比,文件系统部分从主机迁移到存储系统,而定位逻辑仍然保留在应用程序中,由应用程序指出文件名,在文件中包含有该应用程序需要的数据。
图1 存储功能从主机到存储控制器的迁移
在面向对象的存储中,存储空间不再需要运行在主机上的文件系统管理,而由存储系统自己管理和分配:主机中原先由应用程序执行的定位逻辑和由文件系统执行的存储空间管理功能迁移到存储系统中,应用程序只需要指出待访问的对象既可。
目前,已有一些对象存储系统的实例,如NASD、LUSTRE 、CAS等。NASD主要目标是提供一个安全的网络硬盘;LUSTRE是一种支持从小型的到特大型集群的可扩展的集群文件系统;CAS通过文件内容获取文件,它对文件的内容进行计算得到固定长度的数字代替文件名大大降低了应用软件操纵和管理存储介质上所存储信息的物理地址的难度,非常适合于固定内容存储需求。
3.3 CAS存储技术的优势
正如SAN完全为优化块数据、而NAS完全为优化文件数据而设计一样,CAS专门针对固定内容存储需求而设计。传统基于文件系统的存储系统,包括DAS、NAS和SAN,不具有固定内容存储需要的特性:这些系统是追求高性能而不是高度永久性,在块中分布数据而不是使空间效率最大化,为了读写数据而不是永久地保存数据,并且只提供了一些安全措施,而没有坚实的抗毁性。固定内容数据必须被长期保存,以便今后检索,这时间可能超过了基于磁盘文件系统硬件的寿命,而且也可能超过了存储软件系统和他们接口的寿命。固定内容存储系统中需要具有区别于文件系统的特性:极大地降低存储成本,不可改变的特性(一次写入、多次读取),高可靠性(校验和检测、消除复制);以及区别于其他存储系统的特性:比磁带系统更小的延时,通用的接口,搜索能力(尤其是在PB级存储系统中),和几十年后或几百年后对资料的读取可以像现在对本地或分布系统的读取一样方便。
内容寻址技术有几个好处:(1)迅速定位:每一个对象都有其唯一的ID,CAS系统根据这个ID能够迅速地定位到其对应的对象。而在传统的文件系统中,在定位文件时,需要搜索文件目录和文件;在访问文件时,又需要将文件的逻辑地址转换为块设备的物理存储地址,这些都需要较大的系统开销;(2)完整性验证:对CAS系统返回的对象,应用程序可以使用报文摘要函数验证该对象是否被篡改;(3)能够提高存储利用率:对于应用程序产生的重复的对象,由于这些对象的内容计算出的ID相同,在存储系统中只需要保存一份拷贝,而传统的文件系统则需要重复占用空间。
ESG(企业存储集团)分析报告指出,CAS技术出现的非常及时,关于固定内容的存储需求已经很高,并将不断增长,而传统的文档存储解决方案的局限性也在不断暴露。
CAS技术的出现使非结构化数据管理成为存储业新的热点。但非结构化数据更多涉及到的应用是数据归档和查询,因此,内容管理成为其独特解决方案的必要背景。
4、 网络存储与内容管理的结合
4.1 传统存储系统与内容管理的集成
传统的网络存储和内容管理是两个独立的技术领域,存储系统只负责底层的数据存储与获取,数据存储的地址管理由应用处理。在这种情况下,数据存储采用分级存储技术将不同存储系统(磁盘阵列和磁带库)组合起来,企业内容管理将不同的数据管理系统(数据库、内容管理系统和企业应用程序系统)组合起来。分级存储技术首先将不同的存储设备进行分级管理,形成两个以上不同等级的存储池;其次通过对存储利用情况和数据的分析,采用一个预先定义的策略自动实现数据的在不同存储池之间的迁移。分级存储技术通过辅助存储设备来减少对主存储设备的容量需求,极大地降低存储系统总成本。
这种集成方案的灵活性差,当应用程序面临可伸缩性和可用性问题时,一些有价值的信息会淹没在海量数据中。
4.2 CAS与内容管理的结合
CAS网络存储技术促进了面向对象网络存储时代的到来。
2002年4月EMC推出了第一代Centera内容寻址存储(CAS)平台。Centera存储来自应用程序的对象。当应用程序将一个对象通过调用API存储到Centera中时,API使用报文摘要函数为这个对象的内容生成一个128位的ID(称为Use File Content Address)。然后将这个ID插入到元数据中形成一个XML文件(称为C-Clip Descriptor File), XML文件包括了这个对象的存储位置、访问权限、创建时间、对象的ID等信息;再对这个文件计算一个报文摘要。然后,API将元数据和它的摘要,以及元数据和它的摘要一起通过网络传送到Centera中保存。最后,将元数据的摘要返回给应用程序。应用程序通过对象的ID可以直接存取对象。
图2 存储与内容管理结合的方式
在Centera中,应用程序不再使用传统的文件访问或块访问接口,要求应用程序必须进行修改,使用Centera的API来实现存储。目前,已有不少的内容管理软件厂家对原有的应用进行了移植,在Centera的API上开发出了具体应用,如文档归档与内容管理系统、E-mail归档系统、医疗图像归档与管理系统。
4.3 未来的方向
显然,Centera 系统具有一定的限制性:(1)由于每一个对象都有一个元数据和它相对应,需要额外的存储开销。因此,Centera并不适合存储那些长度为几十个字节的小对象,否则会造成空间的浪费。(2) Centera只提供API接口,要求应用程序必须进行修改来实现存储。(3) Centera最小系统是4个节点。这些限制对于预算有限、开发能力不强的中小型企业来说是难以逾越的障碍。
然而,不管如何,Centera内容寻址存储系统将一些内容管理功能如元数据技术和高速索引技术集成到存储系统之中,它启动了网络存储与内容管理结合的新纪元(图2b);未来,更多的内容技术将与存储系统实现结合,原本存在于内容管理系统、数据仓储、存储系统之间的界限将日益变得模糊,提供所有这些服务的统一视图的平台将会出现。
有可能出现一种新的基于内容管理的存储系统平台(图2c),它扩展了最新的对象存储体系结构,支持对象仓储和联邦数据库技术,支持关系和 XML 作为主要数据模型,并紧密地集成了内容管理服务、工作流、消息传递、分析和其它企业应用程序服务。
5、 讨论
企业和组织迫切需要将内部的各种内容进行有序管理、挖掘其价值,并支持有关标准和规范。据ESG估计,在未来几年内,符合有关标准和规范的新型网络存储系统解决方案、网络存储系统产品以及网络存储系统服务,具有潜在的60亿美元的市场空间,这无疑是开发先进网络存储技术的巨大动力。
从上面的技术浅析可以看到,在内容管理和网络存储技术的世界里,随着内容存储的概念登上了企业内容管理领域的舞台,技术融合正在改变存储系统和企业内容管理系统(ECM)领域的格局,两个以前不相关的技术已经开始走向结合了,现在是它的开始。
今后,存储技术领域将面临更多的新技术和很多重要的融合,我们必须不断努力,因为对于ECM厂商,潜在的内容市场也是他们想去开发的处女地。
6、致谢
本文引用了华中科技大学谢长生教授、北京理工大学谭毓安博士、暨南大学韩德志博士有关论文中的资料,引用了DoSTOR和一些网站的有关内容,在此一并致谢。
订阅《信息存储》杂志请 点击此处链接