一提到数据,不少人脑海里马上就会想到数据库,这个词能有如此高的知名度,完全得益于此前结构化数据在数据管理中的统治地位与人们对于其的重视。的确,在过去相当长的时期内,企业是数据制造的主体,而对于企业来讲,存在于数据库,应用于ERP、CRM等系统的结构化数据无疑是最为重要的部分。而现在,随着信息制造主体的转变与信息化的普及,非结构化数据的管理日益成为业界热点,并且即使在企业内,非结构化数据的管理也逐渐成为了IT部门的重点课题。
激增的非结构化数据
据IDC的报告显示,现在全球数据量每18个月就要翻一番,每年全球产生的数据量已经高达40EB(1EB=1000PB)。而这些疯狂增长的数据主要来自非结构化数据。非结构化数据是相对于结构化数据而言,结构化数据主要是指那些数字的或能用统一的结构来表示的数据,如存储在数据库中的数据,这些数据基本上是以块(Block)的形式呈现。而非结构化数据是指那些无法用数字或统一的结构来表示的数据,像文本、图像、视频、音频、报表、网页等都是非结构化数据,它们大多以文件(File)的形式保存。
造成非结构化数据激增的原因主要有两个:一是云时代的到来使得数据创造的主体由企业逐渐转向用户个体,而个体所产生的绝大部分数据均为图片、文档、视频等非结构化数据;另一方面,信息化技术的普及使得企业更多的办公流程通过网络得以实现,以往纸质的表单、票据等现在都实现了数字化存档,而这方面产生的数据也以非结构化数据为主。
事实上,非结构化数据成为主流早有征兆,2008年,基于文件的存储系统容量出货量就以微弱的优势首次超过了基于块的存储系统容量的出货量,而近几年,这一差距正在逐渐拉大,据Gartner预计,到2012年,基于文件的存储系统容量将占到总容量的70%。而
IDC也同时预测,鉴于基于文件类型的非结构化数据的增速极快,到2012年,全球存储市场的总出货量中将有80%的容量被文件级数据所覆盖。
非结构化数据的特点
相比于业界一直重点关注的结构化数据,非结构化数据在生产、存储、使用上都有着不同的特点。
1、 生产速度快
一条结构化数据的大小往往是Byte级别,而非结构化数据的增长量级往往在MB级别,两者在生产速度上的差别显而易见,反映在存储容量上的区隔同样明显,一个结构化数据库的级别大都在GB级别,如果一个结构化数据库达到TB级别就算超大规模,而对于类似影视制作等以非结构化数据为主的企业来说,其所需要的存储空间往往有接近PB的规模。
非结构化数据这一特点反映在对于存储设备的的需求便是大的存储空间与方便灵活的扩展性能。
2、 文件级别的管理
与结构化数据使用的块级别存储不同的是,非结构化数据需要的是文件级别的存储技术。
在存储区域网络这种块级别存储架构中,主机直接通过SCSI或FC协议控制数据,而SAN存储设备无需完成文件的识别、管理等工作,这些工作都由主机来完成。
而面对非结构化数据,再采取这样的方式无疑会加大主机的压力,因此非结构化数据需要文件级的存储设备,如何去处理这样的需求呢,按照传统的方式我们通常有两种方法,一方面,我们可以很容易的利用Windows或者Linux的文件服务器再加上直连存储系统或者SAN存储系统来构建出一台文件服务器来存放非结构化数据;另一种方法就是使用传统的NAS设备,NAS是一个拥有自己文件系统的存储设备,通过NFS或CIFS协议实现文件级的传输,但是,传统的NAS往往受到扩展性方面的限制,纵向(Scale-Up)扩展的方式很难适应当今非结构化数据激增的现实。
3、 共享需求
相比于结构化数据往往有专一的应用对象——数据库服务器而言,非结构化数据所要面对的客户端往往更加复杂与多样化,共享的需求不可避免,这一点也决定了其与结构化数据在存储上的不同要求,后者更需要的是SAN这样的分配即占有的存储方式,而结构化数据更多的需要能够被多台设备共享的存储方式。
4、 对吞吐率需求更高
结构化数据的访问是小数据大密集的方式,一次数据库的写入读出产生的数据量只有几Byte或者是几KB,但是他需要的是非常密集的访问,对于一个大型企业的数据库而言,其每秒的调用次数一般会达到几十数百次,因此对于数据库存储设备的考量指标是IOps,也就是一秒能够完成的I/O数量。而结构化数据不同,对于典型的非结构化数据生产企业,如电影公司等而言,一个文件的规模非常大,往往是几百MB到GB的级别,一次读取时间很长,但并不密集,因此,一个好的非结构化数据存储架构将能够提供非常大的I/O吞吐量,也就是传输带宽。
集群存储大有用武之地
非结构化数据的激增为集群存储技术的发展提供了前所未有的良机,目前市场上生产集群存储的厂商不少,但是能真正做到分布式的文件存储的厂商并不多,初志科技凭借国际领先的CZSS集群存储技术,创造性地满足了用户的需求。针对上面提到的四点,我们来看以CZSS集群存储为代表的分布式存储产品是如何满足用户的非结构化数据存储需求的。
1、 快速扩展
针对非结构化数据生产速度快的特点,初志CZSS集群存储有着快速扩展的特性。
初志CZSS集群存储系统采用先进的横向(Scale-Out)扩展技术,避免了传统纵向(Scale-In)扩展技术所存在的存储容量的增加为主机头带来的难易承受的压力的问题。横向扩展技术能够将访问压力均衡地分配在各个节点上,避免了机头瓶颈的形成。
初志CZSS集群存储采用Doubl-Cluster双集群架构,将元数据集群与数据集群分离并可随时根据需要进行独立扩展,用户既可以通过扩展元数据集群获得更多文件管理的能力,又可通过扩展数据存储集群获得更大的聚合带宽与存储容量,灵活、平滑的扩展方式让用户可以有效地控制成本。
CZSS集群存储系统采用动态扩展技术,用户无需中断应用的运行就可以通过CZSS 的配置工具动态添加节点以扩大系统的容量、性能和规模,系统自动实现负载均衡。同时,随着存储服务器数据的增多,整套系统的聚合带宽也会线性的增长,完全可以满足业务不断发展所产生的容量和性能需求,保持用户业务连续性的同时带来性能的提升。
2、 文件管理
初志CZSS集群存储采用自有CZFS文件系统,通过将元数据与数据分离的技术,实现文件的紧耦合管理与快速的访问传输。并且在文件传输上,其采用了自有传输协议,但完全兼容通用的NFS与CIFS文件传输协议,因此在实现广泛的共享的同时还可以保证传输的私密性。可以说,在文件管理上,CZSS集群存储系统集合了SAN的访问方便与NAS的文件级别存储的优点。
初志CZSS集群存储采用统一命名空间,将多个存储节点整合成一个全局的单一的命名空间,以一个卷的形式呈现于用户面前,无论使用多少节点,客户端所看到的都是一个单一命名空间,初志CZSS集群存储的单卷空间可以达到64PB,这在所有同类厂商中绝无仅有。
3、 方便共享
与结构化数据只向单一的数据库服务器提供应用不同,以视频、图片等形式存在的非结构化数据需要面对多个用户的使用,因此有着共享性的需求,传统的SAN设备需要连接在文件服务器上才能够达到该目的,但这显然增加了用户的成本投入,而传统的NAS虽然可以实现共享,但是由于缺乏权限管理机制而无法保证数据的安全性。
初志CZSS集群存储结合了以上两种方式的优点并有所创新,其在挂载方式上类似与SAN设备但又有所不同,CZSS仅仅是将统一卷中的目录挂载给用户,并且其还具备完善的权限管理机制,不同的用户可以自行决定自己所挂载的空间或是空间内的某个文件共享给哪个用户,在保证信息私密性的同时避免了数据重复拷贝所带来的存储资源浪费。
4、 高I/O
初志CZSS集群存储系统采用聚合存储技术,将文件分布存储在不同的存储节点中,实现了多台设备的并发读写与所有节点的带宽聚合,克服了传统存储设备单一出口的瓶颈,可轻松提供高达数十GB/s的I/O带宽和上百万的IOps,保证性能随存储规模线性增长。
从上面的分析不难看到,非结构化数据的快速增长为以初志CZSS集群存储为代表的分布式存储技术带来了广大的应用领域与良好的市场预期,而作为云计算技术的底层架构,集群存储在未来无疑会迎来更加广阔的应用前景。