特大型高校书苑
浙江大学图书馆是我国历史最长、规模最大的高校图书馆之一,其前身为建于1897年的求是书院藏书楼。今天的浙大图书馆由一个总馆和分布在五个校区的五大分馆构成,整个图书馆的总建筑面积超过5.9万平方米,总藏书量553万余册,在全国高校图书馆中名列前茅。
早在1999年,浙大图书馆便率先引进了先进的图书馆集成管理系统(Horizon),实现了总馆与分馆之间图书的通借、通还服务。在电子资源方面,馆方先后引进了52类、200多个数据库,其中包含10多万种电子图书、9000多种中文电子期刊、8000多种外文电子期刊、10余万篇论文以及一批事实数据库。目前,浙大图书馆具有使用权的电子资源总量已接近国际著名高校图书馆的水平。
2003年,浙大图书馆与中国科学院研究生院共同牵头承担了“高等学校中英文图书数字化国际合作计划”(英文缩写CADAL)建设项目。CADAL的目标是建设包含100万册图书、并能够接受世界范围内访问的数字图书馆,它将与“中国高等教育文献保障系统(CALIS)”共同构成中国高教数字图书馆的总体框架。作为全国唯一一家牵头组织CADAL项目的高校图书馆,浙大图书馆正在经历着建馆以来规模最大的电子资源建设进程。
多样化存储需求
作为一家特大型高校图书馆,浙大图书馆面临的电子资源存储需求是非常复杂的;特别是随着资源本身建设进程的加快,这种复杂性还在不断增强,具体表现在:
一、存储对象的分门别类
与一般高校的电子资源主要靠引进不同,浙大图书馆的电子资源中,自建的部分占相当大的比重。这些“自建资源”包括馆方自主创建的各类专业数据库;以及为CADAL项目创建的大量电子资源。
与各类“引进资源”(包括购买的电子期刊、电子书)相比,自建资源具有两大特点:一是它们的访问频率较高,特别是馆方自建的专用数据库(如馆藏资源导航数据库),由于它们专门面向本馆用户,因而访问者特别多;二是它们的安全性要求高:“引进资源”一旦损坏或丢失,可以随时从供应商处得到补充;“自建资源”独此一家,别无分号,因此一旦出问题,将造成无法弥补的损失。
鉴于自建资源与引进资源所需要的存储环境不完全相同,馆方希望能针对这两种不同的资源,设计出最合理的组合式存储方案,一方面,要引进先进的光纤存储设施,为自建资源提供高性能架构与高容灾能力,以确保这些核心数据的绝对安全,并支持对它们的高频率访问;另一方面,要充分考虑到性价比因素,充分运用各种存储设施,对不同等级的需求提供不同等级的解决方案,妥善分类,分而储之,以最少的投资,获得最大化的效益。
二、资源总量的迅猛增长
无论是自建资源,还是引进资源,其总量都十分巨大。2002年CADAL项目启动以前,浙大图书馆的电子资源总量已达到5TB的规模;项目启动后,资源增长速度进一步加快;今后几年中,各类电子资源的年均增量都将达到5TB以上,这种总量规模与增长速度在高校图书馆中都是十分罕见的。
长期以来,这些电子资源一直存储在各系统自身所配载的硬盘之中,这种分散存储状态在存储管理效率、数据安全性、系统稳定性等许多方面均难以尽如人意。为了对已有资源的存储环境加以整合,并考虑到增量资源的潜在存储需求,浙大图书馆迫切需要建立一个不仅具有超大容量,而且具有良好扩展性的集中存储架构。
三、既有投资的保护与存储技术的研究
一方面,浙大图书馆原有2套戴尔PV220S磁盘阵列和1套PV650光纤阵列,它们已经支持着部分应用。有鉴于此,馆方要求在新的存储方案设计中,要充分发挥PV220S阵列的作用,尽可能地保护既有投资。另一方面,浙大图书馆一直在进行着存储应用方面的研究,馆方希望在新的存储方案中合并采用SAN和DAS等不同的存储方式,以测试其协同运作的效果。
多元化解决方案
为了应对上述复杂的存储需求,浙大图书馆与戴尔方面进行了多次探讨;2003年10月,馆方最终决定:全面应用戴尔设备,建设一个包含SAN、DAS等两种存储方式的综合解决方案。
该方案的设计思想如下:
- 首先,根据数据的关键程度将存储对象分为三类,A类为自建资源,关键性最高;B类为访问量较大的引进资源,关键性居中;C类为一般引进资源。
- 其次,引进高端光纤存储设施,建设SAN集中存储架构,作为主体存储方案;与此同时,以DAS存储方式作为对SAN的协调与补充。
- 最后,因“需”制宜,将上述A、B两类关键程度较高的资源存入SAN之中,而将C类资源存入DAS之中,这样,既保证了整体架构的先进性、确保了关键资源的安全存储与关键应用的高效响应,又最大限度地保护了既有投资,提高了整个方案的性价比。
该方案的具体内容如下:
第一部分:以DELL|EMC CX600为中心的SAN集中存储
SAN的前端为6台戴尔PowerEdge服务器,其中,1台为PE4600,4台为PE2650, 1台为PE6450。这些服务器的配置及功能如下:
- 1台PE4600,应用服务器,配备2.0GHz双英特尔至强处理器,2GB内存,2块36GB硬盘,它主要负责运营以下自建资源(A类资源):古籍特藏数据库、馆藏现刊导航库、学位论文查询数据库、核心期刊投稿指南系统、医学文献全文检索系统、人大报刊复印资料全文检索系统、文理馆社科大型文献阅览中心书目检索系统
- 4台PE2650,应用服务器,配备2.4GHz双英特尔至强处理器,1GB内存,2块73GB SCSI硬盘,它们负责运营以下引进资源(B类资源):清华学术期刊全文检索系统、维普科技期刊文摘索引系统、万方科技期刊、万方博士论文、万方会议论文。
- 1台PE6450,数据库服务器,配备2.0GHz双英特尔至强处理器,2GB内存,2块36GB硬盘,安装SQL Server数据库,它负责管理上述两类资源的全部后台数据。
SAN的后台为1套DELL|EMC CX600光纤磁盘阵列,整个阵列配载了30块146GB的10000转光纤通道硬盘,分3个RAID组,均做RAID5,实际存储容量为3.6TB。CX600承担了上述各个系统的后台数据存储任务,其中,自建资源的数据总量约有3TB。
在SAN内部,前端与后台之间通过2台BROCADE 8口光纤交换机(DS8B2)实现连通;6台服务器分别连接在不同的交换机上,其中5台为单链路,只有1台为双冗余链路,其目的是测试两种链路方式的稳定性与效率差异。
第二部分:以戴尔PV220S为基础的DAS补充存储
DAS的前端为1台戴尔PE2650服务器,它配备了2.4GHz双英特尔®至强™处理器,1GB内存,2块73GB SCSI硬盘,负责支持“书生之家”电子图书数据库(C类资源)的运营服务;DAS的后台为2套PV220S磁盘阵列,存储容量总计约3TB。
在DAS内部,PV220S主要负责存储“书生之家”电子书的全部数据;此外,CADAL项目建设过程中所产生的大量临时数据,也通过LAN存入PV220S之中。目前,以上两部分的数据规模已将近3TB。
多方面应用效果
上述方案已于2003年底在浙大图书馆全面上线运行;近一年来的运行实践表明,整个系统运行稳定,对应用需求的响应效率也非常高。浙大图书馆数字资源建设中心主任黄晨先生认为,该方案的实施,达到了以下三个方面的效果:
首先,DELL|EMC CX600 SAN的引进,使浙大图书馆获得了一个性能先进、长期稳定的基本存储架构。对于这一点,黄先生解释说:“DELL|EMC CX600既有顶级的存储处理性能,又有强大的服务器支持性能,更有充裕的扩展空间,它的引进,不仅使我们的各类电子资源,尤其是其中珍贵的自建资源,实现了集中存储,从而提高了存储管理的综合效率;更使我们的基本存储架构在相当长的时期内稳定下来。有了稳定的数据中心,我们就能在未来的几年中彻底摆脱存储瓶颈的束缚,把精力集中到自建资源和应用的开发上来。”
其次,多元化的存储布局,实现了最优的性价比与最低的原始投入。黄先生说:“CX600 SAN是一种面向‘任务关键型’应用的高端存储方案,非常适合用来存储关键性资源;而以PV220S为基础的DAS存储方案,则适合用来存储总量大但重要性和访问频率都不太高的普通资源;两种存储手段的有机组合使不同的存储对象真正实现了因‘需’制宜、各得其所,这样做,不仅无损于应用效果,而且极大地提高了系统的性能价格比。方案实施后,我们采用这两种方式存储的电子资源基本相当,整体核算下来,节省的投资极为可观。”
最后,成功地实施了多项技术测试。黄先生介绍说:“在方案实施过程中,我们全面基于戴尔设备,对‘SAN和DAS的协同工作机制’,‘光纤通道与SCSI通道对不同数据类型的传输效果’,‘同一型号服务器在不同存储环境中的工作性能变化’等许多课题进行了测试。测试结果不仅使我们对上述几个问题有了更深入的把握,而且为我们全面建设浙大图书馆数据中心提供了重要的参考。与此同时,上述测试也使我们对戴尔的应用与存储方案充满了信心。”
另据黄先生介绍:在刚刚过去的2004年10月,浙大图书馆完成了系统实施后的第一次扩容。此番扩容为CX600添加了一个阵列柜,柜中配载了15块300GB的ATA硬盘,从而将存储空间扩大了1倍多,使总存储量达到了8个TB。扩容期间,数据在不同的存储环境下,在光纤通道硬盘、SCSI硬盘、ATA硬盘之间频繁地交换,而系统未发生任何故障。黄先生就此总结说:“此次扩容的成功,不仅证明了整个存储方案的科学性,而且再次证明了戴尔设备,包括它的服务器与存储设施,其质量是可靠的。”