数据存储产业服务平台

专家谈存储那些事 支招轻松应对大数据

在日前的IBM智慧存储发布会上,全球网络存储工业协会中国技术中心首席技术顾问侯海波深入浅出地介绍了存储的主要功能、存储的历史、现状和未来,并着重谈了当前存储面临的数据爆炸增长等挑战以及应对的方法。整理本文,旨在让刚刚接触存储的用户对大数据背景下的存储有一个入门的认识,以及让非专业人士对存储和大数据处理有一个较为直观的了解。

全球网络存储工业协会中国技术中心首席技术顾问侯海波

大数据的迷雾笼罩着当前整个业界,IT基础架构受到的冲击首当其冲,数据的处理、分析和利用,首先是以数据存储为基础的。IBM的智慧存储战略,贯穿着化解大数据危机的思想。但IBM的目光不仅仅放在IT业内,而是希望所有的企业、组织,能够认识大数据并利用技术手段从中获得“智慧”。

受IBM公司的委托,侯海波在发布会上向包括商业媒体在内的在场人员讲解了《存储那些事》。他表示,应对当前的存储挑战,需要采用高性价比的介质和优秀的架构,辅以分级存储、存储虚拟化、精简存储和重复数据删除等重要的技术手段。

存储解决三件事情

从PC普及到互联网建设高潮,再到如今社交媒体和移动互联网的高速发展,我们已经置身一个海量信息的时代。侯海波说,信息技术跨入一个新的以信息技 术处理、存储为核心的时代,这就是信息的存储。可以看出,存储几乎是我们的一个IT架构重心。调研表明,在IT架构里面,一半的预算几乎都放在了存储上 面,而过去的重心是计算和传输。

存储技术主要是解决这三件事情:第一,要把信息存好,不管多大的数据,你得存下来;第二,要用好,在我任何时候需要数据的时候能够很快地找出来;第三,管好,数据一定要管好,一定不能丢,如果丢了,法律可能会找你的麻烦。

侯海波指出,存储需要很好的载体。以石刻、竹简、纸张记事,那是存储的昨天,纸张的发明让人类文明跨出了大大的一步。然而,当前的存储技术发展到今天面临很大的压力。

存储三大压力

第一个压力是数据量实在太多。在2011年有一个专门的研究机构研究表明:到2007年底的时候存储的信息是295EB(1EB=1000PB 100万TB 10亿GB 1万亿MB,一张照片大概也就是几个MB),到现在可能翻了十倍都不止了。要把这些数据全部刻成CD,大概是4040亿张,如果全部叠起来,可以从地球到月球。

第二个问题它是爆炸性的增长,有专家给了一个“经验定律”,是每隔十八个月翻一番,平均每年产生多少新的信息呢?好像是 2000000000000000000000字节。这些数据包括通话记录、银行业务记录、网购交易记录和微博信息等,Ebay每天产生的数据量是 50TB,Facebook在没有中国这么大的市场情况下,每天新增的照片量是1PB。爆炸性增长带来的压力,就是海量的基础上还要去海量,数据一多,找起来就比较麻烦,你在一个柜子去找东西和满房间找东西花的时间是不一样的。

第三个压力,这个数据非常重要。重要到你不提供它,你会损失很大,而且会影响到你企业的生存。我们知道9·11事件发生之后,世贸大厦三分之二的企 业都没有重新开张,不是因为人员的损失和资产损失,而是数据的丢失,不能丢的一定不能丢,要丢的话可能法律会找你的麻烦。另一方面,如果你的数据没有丢 好,这也给你自己造成麻烦。前几年有一位陈老师,他可能有一些图片数据涉及隐私,给自己找了麻烦,他没有存储知识,所以从那以后很多知名人士宁愿砸了也不 愿意去维修,可见懂点存储知识是多么的重要。

应对之道

今天的应对之道,首先我们看一下数据存在什么地方,当然大家可能想到光媒介,有磁带,但是主流的还是磁盘,1956年的时候IBM发明了第一块磁盘,当时大概是24寸,100多公斤,数据量是5MB,今天随便一块磁盘上到2TB、3TB,也就是说我们的容量已经扩展了100万倍。但是,不管磁盘多大,在企业应用里面还是不够的,我们知道电信的磁盘是几百块、上千块才能存得下,怎么把这些磁盘组织起来,存储更大的容量,这里我们就用到一个技术,一个是外部存储,把磁盘组织起来放到一个柜子里,这叫磁盘阵列,不光放进去就可以了,还有一个RAID的技术,把这些磁盘组织起来,通过一系列的方式使得我们得到更大的容量来使用,同时性能还提高。举个例子,一个人假如说只能记100个单词,如果要记 1000个单词可以组织10个人,每人记100个,组成一个团队之后存储容量就扩大了。如果我要是记100个单词,第一个人记,其他人闲着,可能我还是需要100分钟的时间。如果100个单词来了之后,把它分成10组,每一个人记10个,大家同时记,那么我们10分钟就可以把数据记下来,这就是说RAID 技术让我们可以利用廉价的磁盘组成一个大容量的磁盘,当然,它的可靠性也会增加。

介质还不能完全解决问题,我们还需要一个好的架构。早期的存储,我们是直接把磁盘放到服务器这样的主机里面,主机和磁盘是密不可分的,在这种情况下,如果我要增加存储,我需要首先增加主机。后来,我们把磁盘扩展到机箱的外面,组成一个柜子,也就是磁盘阵列,刚开始只能通过一种协议,也就是我说的NAS这样的连接联到一台主机,虽然解决了容量的问题,但是共享的问题、每一台应用的数据保护问题可能需要分别对待,这是分别进行存储,后来我们产生了更大容量的企业化存储,大到可以把企业所有的数据都存在里面,而且有更好的一些通道协议把它联到很多的主机上面,可以把所有的应用主机联到一起来,实现了企业数据的统一存储。在统一的情况下就可以对数据进行统一的管理,比如说备份就很方便了,这个协议最早也是IBM做的。这样一个架构还不是最方便的,最方便的是网络存储,好比大家拿着笔记本电脑,插上网线就可以调用数据了,拔了网线就可以回家了。我们的设想是把所有的主机都列到网络中来,把所有的存储都列到网络中来,大家通过网络的方式去扩展,新增加了一个业务部门,新增加一个主机就可以了,明天新买一个盘阵,直接接到交换机上就可以了。

刚才讲到了内部阵列存储和外部阵列存储,这个架构还在用。这是NAS结构,这种方式在应对访问某个文件时是非常方便的,但是最典型的还是我们构建存储区域网,这样的话,我们就像访问本地的磁盘一样,虽然你在写数据时会写到磁盘阵列里面去。

我们再来看看这些技术,一个是分级存储。既要保证性能,我需要把数据放在高性能的介质上,为了保存大量的数据,我需要用廉价的存储磁盘来支持,每一种介质都要用。一个数据隔一段时间不用了,可以自动移到二级存储上,再不用放到三级存储上,需要的时候调用到一级存储上,这个过程是完全自动的。

存储虚拟化。如果我有很多个磁盘阵列,第一个可能已经快用完了,第二个可能还有很多的空白,在这种情况下,如果我有一个软件,通过虚拟化管理,把它组成一个大的存储池,爱怎么用就怎么用,具体写到哪个磁盘上就由我来控制。

第三个是精简存储。大概是这么一个效果:如果你有一块硬盘是1G,每一个分区给多大的空间比较好呢?这是比较纠结的问题,用了精简存储,你可以给每个分区分到最大,哪个用得多就用哪个,直到最后物理空间用完了再去扩展新的磁盘,这是它的示意图。

最后,我们从源头上来看,怎么样通过除掉重复数据。当一个文件来的时候,我首先对文件进行处理,切成小块,在已经存储的文件里面去找,如果这块数据 已经存储了,我就不会再存了。但是我做一个记录,在你任何时候需要这个数据,我可以随时给你组装出来,这样的话减轻了存储容量,对每个数据的访问也不会有 影响。

存储的明天

明天有大个特征:一个是大数据,它大到了一定的程度,需要我们存储技术用特殊的方式或者技术来对待它,大容量需要我们大架构,而且是分布式的技术,需要高的性能,需要更架构、大运维。

第二个是云存储,有了云存储之后,我不需要像过去那样规划、购买、部署,也不需要长时间运维,我只说我需要容量。提供商需要做的事情,用我们刚才提到的虚拟化架构来管理,进行动态的扩展,可以想像这是一种比较好的模式,这就使IT资源像水和电一样的公共资源。

未经允许不得转载:存储在线-存储专业媒体 » 专家谈存储那些事 支招轻松应对大数据