数据存储产业服务平台

董唯元存储专栏  存储技术、产品及趋势展望

存储市场现状

存储市场近年来的发展十分迅猛,令IT其他领域望尘莫及。自1997年以来,存储行业的增长率一直保持在20%以上,远远超过IT界的平均增长率。这一势头目前还没有丝毫减弱的趋势,据业内专家估计,2006年将是存储行业的顶峰之年。而同时,2000年的全球存储产品销售额已经超过300亿美元,由此可见,用“如日中天”来形容今天在IT业中的存储行业并不过分。

    今天,存储系统在硬件和软件方面都已经从主机系统中脱离出来,成为完全独立的系统。用户早已经对磁盘阵列、磁带库和第三方存储管理软件等不再陌生。在全球范围内,一些专注于存储技术的公司如EMC、Veritas等公司,其市值和公司实力都已接近甚至超过如HP、Sun等著名主机厂商。以IBM为首的传统IT巨头也纷纷重组,认真制定面向存储市场的策略。同时,在国内已经涌现出一批颇具实力的专项存储系统集成公司。很多大型IT系统的招标项目中,存储系统也被独立出来,单独进行招标。所有这些现象都表明,无论是在厂商、中间商还是在最终用户环节上,存储系统的独立性都已经得到了充分的认同。

    目前,存储行业主要包括三大阵营:以EMC公司为代表的在线存储系统厂商,以STK公司为代表的离线存储系统厂商和以Veritas公司为代表的存储管理软件厂商。由于,用户的存储系统往往由这三种产品共同组成,所以,这三大阵营之间的合作关系十分的密切和深入。还有一些提供存储系统辅助设备的厂商,如以Adaptec公司为代表的主机适配器厂商和以Brocade公司为代表的连接设备厂商等。他们凭借自身的独有技术优势和精准的市场定位,在存储行业里也占有一席之地。除此之外,Cisco公司、CA公司和Lucent公司等一批非存储技术公司也凭借原有的市场、技术和资金优势,寻找突破口,以各种方式介入存储行业,想分得一杯羹。IBM公司、Compaq公司、HP公司和Sun公司等传统主机厂商也在迅速的并购中小存储厂商或OEM其他产品,来丰富原有存储产品线。更有意义的是,这些公司一改自家存储产品支持自家主机的传统,纷纷成立开放存储事业部,把自己的存储产品独立出来,广泛支持各种开放平台。

存储架构浅析

存储行业的核心技术目前主要集中在数据保护,数据管理和数据访问三方面。至于数据挖掘这种专注于数据关系的技术,目前还没有包含其中。而存储产品的市场,则主要是被磁盘阵列、磁带设备和存储管理软件这三方面的产品所瓜分。至于光介质存储产品,由于其技术更新缓慢,无论是在性能、容量还是在价格方面,都无优势可言。目前,只是在一些比较特殊的环境中才会使用到。所以,本文中就不再就这类产品做分析和评价了。

    对最终用户而言,存储系统在整个IT系统中的地位很特殊,存储系统的架构往往决定了整个IT系统的架构及功能,所以,具有关键性业务的用户在搭建自己的IT系统时,对存储系统部分应给予足够的重视。不能听信厂商的一面之词,更不能自行简单拼凑,而应该求助于具有一定资质和实践经验的存储系统专项集成公司。在规划IT系统之初就应该设计好存储系统架构和主要功能。下面我们就来了解和分析一些存储系统的基本架构。

    存储架构的演变
九十年代以前,存储产品大多作为服务器的组成部分之一,这种形式的存储被称为SAS(Server attached storage 服务器附属存储)或DAS(Direct attached storage 直接附属存储),如图1所示。
随着技术发展,进入九十年代以后,人们逐渐意识到IT系统的数据集中和共享成为一个亟待解决的问题。于是,网络化存储的概念被提出并得到了迅速发展。从架构上来分,今天的网络化存储系统主要包括SAN(Storage area network 存储域网)和NAS(Network attached storage 网络附属存储)两大类,如图2、图3所示。


图1. DAS



图2. SAN架构

    SAN的特点及适用情况
所谓SAN,是指在网络服务器群的后端,采用Fibre Channel等存储专用协议联接成高速专用网络,使网络服务器与多种存储设备直接连接。SAN的最大特点就是可以实现网络服务器与存储设备之间的多对多连接,而且,这种连接是本地的高速连接。SAN架构的优势在于,强大的扩展性、多种存储设备的集中和新架构支撑下的新型数据应用方式。

    在SAN架构中最先引入的新技术,就是LAN-Free的数据备份。这种备份方式与传统备份方式的最大区别就在于,海量的备份数据不再拥挤在宝贵的网络带宽上,而是通过SAN中的高速连接进行数据传输。这一技术进步大大提高了备份效率,同时节约了网络带宽资源,为数据库等应用进行在线备份提供了可能性。

    以此类推,其他不适合在传统以太网络中传输的数据应用方式,在SAN架构下都可以大大提高工作效率,甚至出现全新的工作方式。一个典型的例证是视频行业的非线性编辑系统。在DAS架构下,各台非编机之间传输视频数据时的等待时间,往往要占到整个工作时间的三分之一左右。在引入SAN架构之后,由于数据是被各个非编机所共享的,交换数据时完全没有等待。同时,由于冗余数据的减少,系统的总存储容量要求大大降低。

    SAN与FC协议
正是因为以上这些明显的优势,SAN概念从出现以来,一直受到厂商、集成商和最终用户的关注和重视。一些厂商还联合开发了专门针对SAN的存储设备连接协议,这就是大名鼎鼎的Fibre Channel协议(光纤通道协议)。这个协议与传统的SCSI协议相比,具有明显的先进性。这也是今天光纤存储设备得以普遍流行的原因。至于在SAN架构中,则几乎无一例外的采用Fibre Channel协议作为连接协议。

Fibre Channel与SCSI的比较

    NAS的优缺点及适用环境
目前,SAN解决方案的最大问题是成本较高,一般中小用户还难以承受每端口1000美元左右的光纤交换设备和相对较昂贵的光纤存储设备。而NAS产品正是以其较低的价格,简单方便的使用方式满足了相当一部分用户的需求。简单的说,NAS就是经过专门优化的文件服务器系统加上大容量存储。其优点在于结构简单,配置和使用非常方便。在数据共享方面,因为采用的是传统NFS或者CIFS协议,所以不需要任何附加软件,即可以在几乎所有平台之间,实现跨平台的数据共享。


图3. NAS架构

    曾经有人认为,因为NAS与应用服务器之间交换的是文件,而不象SAN或DAS架构下,服务器与存储设备交换的是块(Block),所以NAS产品比较适合于文件存储,而不适合数据库应用。事实上,的确有些数据库不允许把库建立在NFS或CIFS卷上,但是对于象Oracle这样的数据库而言,库文件可以建立到几乎任何卷区上。在性能方面,实际测试结果表明,在本地磁盘的裸设备上运行Oracle,与在NAS上运行性能并无明显差异。相反,倒是对一些大型数据文件连续读写操作为主的应用来说,NAS并不十分合适。


SAN和NAS比较

    NAS产品的主要问题就是对网络带宽资源的占用,好在网络带宽也在迅速的增长。对于备份这一问题,NAS产品可以将备份磁带设备直接连接到本地,以次来避免海量数据对网络带宽的占用。

如何选购存储产品

以上是关于存储系统架构的探讨,在确定了存储系统基本架构之后。我们还需要产品选型这一步。下面就如何进行产品选型做一些分析和探讨。存储产品的评价基本可以集中在数据保护能力、性能、容量、连接性、管理性和附加功能这几个方面。

    数据保护能力

    数据保护能力是指在存储设备的设计方面,对各种偶然性错误和意外情况的预期,以及采取的预防或补救措施。这里,用户需要注意的是,存储系统是一个从软到硬的复杂系统,所以,对数据保护能力的评价应当考虑到整个系统。

    一些低端磁盘阵列厂商宣称他们的产品,由于采用了RAID、热交换磁盘、双电源等技术,数据将永不丢失。对一些中小型用户,这些数据保护技术基本可以满足要求,但是对关键性业务的用户来说,这些技术只能算数据保护的最基本前提。对数据完整性的保护,对写缓存的保护,对主机连接的保护以及对远程容灾的支持等方面,往往才能够体现出存储产品的真正数据保护能力。

    性能

    存储产品的性能评价是最容易的,因为这一指标可以被充分量化。对磁盘阵列产品来说,性能指数主要有两个:带宽和IOPs(每秒I/O次数)。带宽决定于整个阵列系统,与所配置的磁盘个数也有一定关系;而IOPs则基本由阵列控制器完全决定。在Web、Mail、数据库等小文件频繁读写的环境下,性能主要由IOPs决定。在视频、测绘等大文件连续读写的环境下,性能主要由带宽决定。可见,在不同的应用方式中,需要考察的侧重点也不同。对NAS产品来说,主要性能指数也是两个:OPS和ORT。分别代表每秒可响应的并发请求数和每个请求的平均反应时间。对磁带存储设备来说,单个磁带驱动器的读写速度是最重要的性能指标。

    容量

    容量是最简单的一个方面,这里需要留意的是,用户不仅要关心产品的最大容量,还要关心厂商推荐使用容量以及扩容成本等问题。

    连接性

    在SAN环境中,以FC连接设备为中心,要连接主机、磁盘阵列、磁带库等设备,环境比较复杂。因此在产品选型时,要充分考虑设备间的连接性。选择具有良好的开放性和连接性的产品,不仅是当前系统正常连接和运行的保障,也为系统将来扩展提供更大的空间和灵活性。

    管理性

    管理性是任何产品档次的重要方面之一。首先,用户应考虑产品所提供的管理功能或方式,是否实用可靠。举个例子来说,某个大型企业计划购买中心存储设备,但是在招标书中对磁盘阵列的要求,居然有“液晶显示屏”和“蜂鸣器报警”。任何进入过专业计算机房的人都知道,这两项功能对常年放置在机房的设备来说,没有丝毫用处。其次,支持中心化管理和远程管理的产品一定会令用户省事不少。还有,很多产品的故障自动通知机制给用户带来了方便,但同时也是数据安全隐患。最后,在配置改变或系统扩容时,不需宕机或尽可能缩短宕机时间,是企业级产品的重要特征。

    附加功能

    今天的存储产品,尤其是部门级和企业级的在线存储产品,已经不仅仅是存储数据的盒子,而是一个智能的小型系统。各厂商将很多功能性软件都整合到自己的存储设备中,以向用户提供更好的解决方案。目前,比较常见的附加功能主要有以下几种:数据快照功能,LUN Masking功能,异地数据复制功能等。

构建存储系统的典型错例

案例一、某网站存储系统。(节约投资,要以保证基本功能为底线)

环境:系统由web系统、mail系统、数据库系统三部分组成。Web系统以windows平台为主,mail系统以linux平台为主,数据库为运行在Solaris平台上的oracle数据库。
存储系统解决方案:以SAN结构实现数据的集中,同时利用SAN结构实现分散数据的LAN Free备份。

    由于网站各系统主机平台多种多样,为了保护数据必须在SAN中实现LUN 隔离功能。为了节约成本,方案中没有选择具有LUN Masking功能的阵列系统,而是通过主机端光纤卡中的设置,手工实现LUN的屏蔽。同时,光纤交换设备也采用了成本较低的光纤HUB,而不是具有Fabric交换机制的光纤交换机。

    经过复杂的设计和配置,磁盘阵列终于可以被主机识别和访问了。网站也就此开通。

    但是,当将备份磁带库接入系统时,问题产生了。首先是由于系统结构的变动,主机端的手工配置需要完全重新来过;继而又发现磁带库的光纤接口类型,与主机端的光纤卡无法匹配;然后是光纤HUB无法将磁带库与磁盘阵列的数据分流,致使系统对磁带库操作时,磁盘阵列就会不可用……

    随着这一系列问题的出现,网站最终决定追加投资,将系统全面升级。但是,整个网站在此半个月期间不能对用户提供及时有效的服务,其损失是难以估量的。

    案例二、某气象单位存储系统。(好马配好鞍)

    环境:主要是卫星气象数据的采集和处理。主机系统为IBM SP并行机,数据库为Oracle。
存储产品:采用IBM 7133磁盘阵列。

    系统在建成并运行了一段时间之后,经历了一次意外断电。结果Oracle数据库无法对数据进行恢复,致使长达数月的气象数据丢失,直接影响到该年份抗洪工作的进展。

    事后的调查分析发现,问题出在IBM 7133磁盘阵列。由于7133的磁盘数据容错校验,并不是硬件实现的,所以主机端磁盘管理软件的逻辑错误,会造成整个磁盘阵列系统的数据不可用。即使设法恢复出主机端的磁盘配置方式,因为7133的Cache是基于电池保护的,而意外断电发生时,恰巧电池的电量不足,所以阵列系统内部的数据完整性已经遭到了破坏,数据仍然无法恢复。

IBM 7133属于部门级产品,在很多环境中都能表现出突出的性能优势。但是,在本案例中,对数据安全性的要求是第一位的,而且在主机系统方面采用了仅次于IBM S/390的大型服务器,可见该系统在要求上之苛刻,在投资方面也是允许采用更高级的存储设备。

案例三、某电视台非线性编辑系统。(只买对的,不选贵的)

    环境及系统结构:5台以Windows NT workstation为操作系统的非线性编辑工作站,通过光纤交换机共享连接硬盘塔。

    硬盘塔在存储业内也称JBOD,即没有阵列控制器的磁盘组。由于硬盘塔、交换机和主机光纤卡之间配合的问题,系统连接后,主机端总是无法稳定的访问到磁盘。系统因此而不能正常工作。经过仔细检查发现,问题出在交换机的内部交换机制。是过多的地址转换造成了主机端的超时报错。解决的办法有二,一是增加投资,将硬盘塔换成带有控制器的磁盘阵列;二是减少投资,将光纤交换机换成光纤HUB。在系统性能和并行性压力不强的情况下,最后决定采取第二种解决办法,不仅节省了资金,而且保证了系统的稳定性。

    当然,如果该系统的性能和并行性要求较高的话,还是应该采取第一种解决办法。因为光纤HUB是共享带宽的交换方式,而且不支持LIP的隔离。

未经允许不得转载:存储在线-存储专业媒体 » 董唯元存储专栏  存储技术、产品及趋势展望