数据存储产业服务平台

专家观点:建立面向电子发现的存储架构

在过去的两年里,电子发现的整体观念已经改变了企业们看待信息的方式并引发厂商们推出了无数针对电子发现需求的解决方案。由于这是存储专栏,因此我们将把重点放在那些电子发现解决方案对存储业的影响上面。如果存储架构师想跟上数据增长、性能、备份和恢复等需求的话,他们就必须考虑电子发现解决方案所提出的这些问题。

目前的电子发现解决方案实际上有两种组织数据的方式,大部分系统都是针对刀片机的,因此增加刀片机可以提升系统的性能。除了某些拥有巨量内存、通常应用于大型机系统的专业系统之外,大部分电子发现解决方案都是基于刀片机的解决方案。

这些系统组织数据的两种主要方式是:

每一个刀片机都连接着一个本地存储系统,这个本地存储系统主要被用来储存被分析的数据。

或者每一个刀片机都与网络相连,通过电子发现系统共享存储资源。

这两种方法之间的本质区别在于,第一种方法中的应用软件连接着各个节点,通过各个节点来传播数据。应用软件与各个节点进行通信,知道各个节点上的信息情况。 在第二种方法中,指令是下到节点的,节点再向共享文件系统发出I/O指令。

至于哪种方法较好则取决于数据本身、搜索的类型、数据的布局(即文件系统和存储设备连接的方式)以及应用程序。从存储的角度来说,这两种方法各有利弊。 当然,要想有效利用存储资源,电子发现应用程序还有很多的工作要做,但是了解电子发现应用程序的基本要求可以让你更好地认识到存储资源配置得如何,从而知道电子发现应用程序应该如何配置。

方法1:分离存储系统和Conquer

在这种方法中,每一个刀片机都有自己的本地存储系统和文件系统。由于本地文件系统相对较小,因此这些文件系统不会存在数据配置和数据碎片方面的性能问题。 对于大部分电子发现系统来说,数据不会逐渐被删除,而是逐渐增加,因此在这种方法中,随着数据量的增长,附加节点和附加文件系统会以稳定的速度递增。通常会有一个头节点或包含索引数据和信息的节点,它们会记录下各个节点存储的是什么数据。 这种系统的扩展是通过增加对应的刀片机和存储系统来完成的。应用程序不一定能够从存储CPU的增加中受益,但是系统扩展却是通过这种方式实现的。

这种系统存在一些存储方面的问题需要解决,包括:

备份和恢复

刀片机的软硬件升级

磁盘故障

备份和恢复

如果系统中有很多个节点,那么备份和恢复的管理工作就会变得非常复杂。你通常不能直接将数据备份到磁带上,因为磁盘到磁带备份技术的性能并不好,因此你只能进行磁盘到磁盘的备份或者磁盘到虚拟磁带的备份。 具体采用哪种备份方式将取决于把数据恢复到本地磁盘时所用的时间,因此许多应用程序会创建磁盘镜像,有时甚至会创建整个节点的镜像。这都会产生硬件、软件、能源和冷却成本。

刀片机的软硬件升级

我总是会问软件厂商,我该如何升级和更新系统中的节点? 如果厂商回答说系统升级时必须停止运行,那你就要掂量一下自己是否能够承受系统升级时的停止运行状况。有些系统是不能接受软硬件升级时的停止运行条件的。 如果你使用的软件可以将许多节点的问题划分开来,那么系统升级就必须在无需停止运行的情况下整合到系统之中,就象硬件升级时必须能创建节点镜像然后把镜像返回?系统一样。你在刚开始安装时就应该做好这方面的计划。

磁盘故障

即使磁盘驱动器在过去几年里变得更加可靠,它们仍有可能出现故障。如果系统中的磁盘真的发生故障,你必须弄清楚故障的原因。 是节点被替换了,还是创建了节点镜像,或是别的什么原因造成的?

方法2:全局存储池

如果你使用了全局存储池,所有的节点都通过NAS连接到一个共享文件系统或共享安装点。系统扩展受到了文件系统的限制,因为每个节点都可以访问所有的数据。 在并行搜索时,会向存储池发出很多I/O指令,由于这种方法势必会造成存储网络规模较大,因此访问存储系统的时间可能会比较长,但是这个时滞可以通过第一种方法中的互联技术得到改善。

这个方法中存在的一些存储方面的问题是:

备份和恢复

碎片和文件系统扩展

存储配置的复杂性

备份和恢复

在第一种方法中,你必须管理很多个节点的备份和恢复。但是在这种方法中,你只要备份和恢复一个文件系统,但是这个文件系统的规模会非常大。一旦系统出现故障或者数据损坏,这就会变成一个大问题。 备份许多个节点是一项复杂的工作,但是恢复一个规模巨大的文件系统也会要求系统长时间停止运行。

碎片和文件系统扩展

这个巨大的文件系统中包含了许多的数据,文件系统一旦发生变化,就会产生许多碎片。有些人也许会说碎片并不是问题,因为所有的I/O指令都是随机的,但是据我的经验来看,许多电子发现应用程序都会连续发出I/O指令,因为数据本来就是通过这种方式被写入文件系统的。 经过研究发现,这些指令通常都会是连续的,偶尔出现跃增之后又会再次连续发出。目前的标准RAID系统不能连续出现这种情况,如果碎片太多,文件系统就不能正常写入数据了。 以后也许能够通过对象存储系统解决这个问题,因为访问模式是可以被OSD目标识别的。

存储配置的复杂性

大型共享文件系统和大型NAS系统的管理和维护都是非常复杂的。这并不是说大量的节点就不难管理了,你只是将管理工作从节点群集转移到了存储系统上而已。 对我个人来说,存储系统似乎比群集更难管理一些,至少在目前所用的工具条件下是这样。

没有百分之百合适的方法

我认为,增加对等的存储资源和计算能力似乎可以假定一切都是平等的,对于一定量的存储来说,你可能需要数倍的计算能力来与之相配。因为存储密度的增长速度比CPU性能和存储性能的增长速度是不同步的。相对于CPU性能的增长而言,时滞的增长似乎更没有止境,这种模式并不能满足我的需求。 如果你增加等量的刀片机,而增加的速度并不均衡,那么你需要增加的刀片机数量往往会比你认为的数量要多得多,同时增加的还有能源和冷却成本。

同时,共享文件系统经常会出现扩容问题,在进行系统架构设计时需要特别注意这一点。

因此现在还没有百分之百合适的方法,要想找出最适合自己的解决方案,你就必须了解你想查找的信息类型以及电子发现程序是如何工作的。如果这很简单的话,那么人人都可以做到了。

未经允许不得转载:存储在线-存储专业媒体 » 专家观点:建立面向电子发现的存储架构