数据存储产业服务平台

DoSTOR专家博客 拯救数字宇宙中的残酷存储现实

      DoSTOR专家博客:当我自己刻录的DVD光盘达到200张,而我的所有硬盘,包括台式机、笔记本和移动硬盘、数码伴侣都被装满的时候,我突然发现,我的家里已经没有存储设备供我存放我的文件了,除非我再去买更多可刻录的DVD光盘,但是我原有的200多张DVD、500多张CD已经把我的柜子、书桌占满了。
  
      当我为这一切迷茫的时候,IDC的分析报告告诉我说:2007年,创建的信息量将首次超出可用的信息存储容量。而我,对这句话现在深信不疑。同时,IDC中国副总经理万宁先生在一次研讨会上指出,到2010年,信息装置量和用户量还会增长50%,信息创建将更加便宜,用户将更加多,对过去数据的激活和使用会更加频繁,所有这些将创建更多的数字信息。
  
      我还没有心思去想2010年的事情,我只想尽快的腾空我在2007年爆满的硬盘。
  
      残酷的数字宇宙存储现实
  
      实际上,上面IDC的报告来自于一次EMC和IDC联手做的调查,《数字宇宙膨胀:到2010年全球信息增长预测》报告显示了全世界每年创建和复制的信息总量,找出了构成信息增长的信息种类因素和地理区域因素。2006年产生、获取和复制的数字信息总量为1288×1018个比特。用计算机用语来说,就是161EB或1610亿GB(见“什么是比特和字节?”部分)。这大约是有史以来出版的图书信息总量的300万倍。从2006年到2010年,数字宇宙的信息量将增长6倍多,从161EB增加到988EB。
  
      在这份报告里,我们看到的是一个几乎被数字信息淹没的世界,越来越多的数字信息被创造出来,但是很快的,就像那些流行歌曲、进口大片一样又迅速的被人们所遗忘,慢慢的,我们发现,在我们的音乐库、电影库等等资料库中积存了大量的数据,而这些数据对我们的诱惑,就像“赌石”一样高深莫测,也许里面有着我们需要的大量信息,能够帮助我们认识世界,发现未来,提升企业的经营活动,也许就像乱发的小广告和过街天桥上办的假证,都是一些无用甚至是垃圾的信息。
  
      当然,我们也会发现,在一个电影资料库里有着同一部影片的数个拷贝,占用了大量的空间,可是如果我们想扔掉它,却必须面对这样一个现实:越来越少的拷贝能够保证数据完好的保存下来么?要知道,知名的NASA,美国国家航空航天管理局就曾经出现过一个令人遗憾又有些滑稽的“事故”:人类首次登上月球的高清晰版录像带没了踪影,而这盘录像带远比传回地球的视频清晰数倍。
  
      当然,除了这些,我们还有许多要担忧的,比如那些远没有萨班斯法案知名的,让我们存储更多信息的法规,如SEC、NARA、FOIA和DOD ,甚至我们还能够举出比这多一倍的法规。还有越来越多的新信息,比如说VoIP电话成了企业网络的一部分、楼宇自动化和安全保障系统进入了IP网络、监控系统实现了数字化、RFID和传感器网络在激增。对了,还有越来越多的Blog、PodCast、WebCast以及数码相机、摄像机制造的个人信息,尤其是视频信息,据称,从数码相机、相机电话、医用扫描仪到保安摄像头,全世界有10亿多个设备在拍摄影像,这些影像成为数字宇宙中最大的组成部分。这些影像通过互联网、企业内部网在PC和服务器以及数据中心中复制,通过数字电视广播和数字投影银幕播放。
  
      同时,在我们制造的这些信息之下,所有的人发现,我们已经越来越离不开这些数字信息了。
  
      除了每天都要面对电脑之外,我们的生活也和这些信息密切相关,比如说天气预报,我们每天看到的天气预报,是通过对大量过往历史数据和新的卫星图片、航拍照片而分析出来的,只有信息更多更准确,图片更清楚才可以获得准确的预报。另外,当Google的股价朝着300美元挺进的时候,我们发现,如此多的信息让我们只要掌握一种简单的方法就可以成为“专家”,那就是搜索,而在搜索背后,是人类从第一台计算机ENIAC开始就积累起来的数字信息。
  
      当然,对于这些信息最依赖的还是企业们,他们被我们所说的那些法律所要求存储各种各样的信息,也因为越来越多的商业智能、知识管理、交易分析而主动的把信息存放起来,但是他们却发现,面临两个极为棘手的问题,一是利用,二是存储。利用就是如何使用这些信息,分析这些信息,存储则说起来简单做起来难??其实就是如何用最少的磁盘、磁带、光盘等介质存储数据,并用最少钱却又最快的速度将它们连接起来。
  
      拯救宇宙的三项技术
  
      从目前的情况来看,我很看好三项技术和一个市场,这其中的三项技术被认为是最能解决信息的存放、利用需求的,而这一个市场,将会是整个存储行业未来的最大爆发点。
  
      重复数据删除技术
  
      首先,我们要谈的是三项技术,第一项技术就是重复数据删除技术,无论是基于文件的重复数据删除或者叫做单一实例存储,还是基于块的重复数据删除技术,都能够大幅度降低用户存储的重复数据,就像那些群发的电子邮件所带的相同附件和更改只有几个字节的文档或记录,通过删除重复的数据,用户可以用比原来少的多的容量去存储相同的数据。我们在此并不去考虑什么是基于文件还是基于块,或者粒度的问题,只是想告诉大家,重复数据删除(或是说其中包含有的单一实例存储),可以节省用户的存储介质的宝贵空间。
  
      不过也要注意到,重复数据删除由于从物理层解析冗余重复的数据块,或是对文件的相似度进行比较,因此所以对于重复性较高的数据库和文件系统的备份任务,其压缩比相应较高。可是如果用户的数据重复性较小,比如说作为文件服务器、FTP下载、邮件服务器或者内容服务器的数据存储,以及对于压缩文件格式的数据处理,比如说视频、音频、图片、图纸以及其它已经经过压缩的文件,其用处就有些不明显了。因此如何有效利用现有空间,也就让第二项技术走到了台前。
  
      自动精简配置技术
  
      用户大量的数据不仅难以存储,而且为了防止数据“溢出”,避免存储容量紧张,很多用户都迫不得已的去购买了大量的存储设备,将它们放在系统中备用,从而造成了大量的浪费,同时,这些存储设备的散热、电力供应也让企业花了不少冤枉钱,因此,如何高效的利用空间,比如说能够回收LUN被删除或修改后所释放的空间,成为了很多企业都非常关注的事情。
  
      同时,一般来说,企业构建存储系统的第一步,是将存储空间分配给各个应用系统,然而,当存储空间分配给某一个应用系统使用后,其它应用系统就无法运用这个空间。通常在早期部署阶段时,管理员很难精确知道各应用系统的实际容量需求,因此分配之后,许多磁盘空间就相当于被「锁住」,造成空间浪费。
  
      一般来说,企业构建存储系统的第一步,是将存储空间分配给各个应用系统,然而,当存储空间分配给某一个应用系统使用后,其它应用系统就无法运用这个空间。以传统的做法来说,企业都会预先买许多存储空间以应对数据的增长,因为通常在早期部署阶段时,管理员很难精确知道各应用系统的实际容量需求,因此分配之后,许多磁盘空间就相当于被“锁住”,造成空间浪费。
  
      举例来说,企业第一年可能仅需要100GB容量,但若一开始仅购买100GB,日后要扩充至1TB时就要更改设定,尤其当前端服务器不支持动态扩展功能时,后端存储系统要扩充容量就会很麻烦,甚至需要停机维护,为了要避免这些困扰,许多企业会选择一开始购买1TB的容量。但若一开始就购买1TB容量,初期使用率会很低。
  
      无论是被叫做自动精简配置还是小储量预备,或者是我们认为最贴切的“存储资源随需分配”,这项技术能够让前端的服务器以为存储设备安装了比实际还多的存储容量,让存储空间的使用率再提升。作为一种存储虚拟化技术,关键在于能让前端的服务器以为存储设备安装了比实际还多的存储容量,比如存储设备的真实容量只有100GB,却可透过Thin Provisioning技术,让前端服务器以为有1TB。 
  
      导入自动精简配置技术就可解决这样的问题,由于前端的服务器一开始就以为可使用的是1TB容量,因此日后扩充也不受任何影响,让企业可根据需求再购买存储空间。有人便以航空公司的超额售票比喻Thin Provisioning技术,由于许多乘客常会有订位后不到的情况,所以航空公司通常会在每个航班卖出比实际还多的座位,以提高航班的搭乘率。 
  
      HDS技术总监张宪桐曾表示,由于企业都有预先购买容量的需求,因此存储空间平均实际使用率约为20%~30%,若采用自动精简配置技术,可让空间利用率提升至70%~80%。 
  
      CAS技术的春天
  
      最后一项技术,就是CAS技术,即内容寻址存储(Content-addressable storage,CAS)”是根据内容(而不是位置)检索存储信息的,其具有面向对象存储特征,基于磁记录技术,它按照所存储数据内容的数字指纹寻址,具有良好的可搜索性、安全性、可靠性和扩展性。于是,从2002年世界上第一个内容寻址存储 (CAS) 解决方案EMC Centera出现开始,CAS技术就被越来越多的业内专家所称道。
  
      而CAS技术最大的优势就体现在其对于存储一项重要工作??归档的贡献上,就像我们所说的,信息除了要被存储,还要被利用,而Archive(归档)就是指以长期持久地保存事务或者应用状态记录。一般情况下,归档通常用以审计和分析的目的,而不是用于应用恢复的目的。
  
      用户想要很好的利用信息,就要很好的归档信息。
  
      而在归档方面,CAS有着得天独厚的优势,首先,CAS系统目前都基于磁盘,避免了磁带的介质脆弱、保存时间短和读写速度慢等问题,尤其是读取,因为磁带的顺序写入,顺序读取特点,这就造成如果要读磁带最里面的数据,将要把整盘磁带读取一遍,而且这还是在确定数据在哪一盘磁带的前提下,否则在磁带上搜索数据将会是漫长而又痛苦的。同时,磁带读取次数也有限,因为磁带上磁粉很容易脱落,所以一盘磁带在读取了30次左右之后,就会因为磁粉脱落而不能完整的读取出数据。
  
      因此如果能够很好的稳定归档,那么也就不会出现我们前面所说的电影资料库为了保证电影能够保存至少一个好的拷贝,而动不动就保存一堆副本的问题了。
  
      另一方面,CAS具有的简单管理和高可用性,帮助它大幅度降低了企业的归档管理难度。据EMC的技术顾问黄斌先生讲,从技术角度来说,CAS和SAN、NAS在技术层面有一个最大的区别。SAN、NAS在存储文件的时候是按照地址存放文件,用户找文件的时候一定要知道它放在哪个磁盘分区的哪个目录里,否则就要搜索。而CAS没有分区、没有目录,不需要记住文件路径,只需要把数据交给CAS,CAS会生成一个数字指纹,相当于公民身分证,靠一串数字和字母组合的数字指纹来识别某一段的数据。当用户需要找这个数据的时候,只要提交数字指纹来获取数据,所以它的技术和传统的SAN、NAS是完全不同的。这样的管理性能,成为了很多SAN或NAS系统管理员被无穷无尽的分区、卷和目录所折磨时的渴望。
  
      这样一来,数据可以很简单的被搜索,从而进行数据挖掘、数据仓库、知识管理等商业智能功能,从而为企业的发展提供动力,而通过企业的不断发展,其技术水平、管理能力也会随之发展,将会带动整个行业、产业甚至社会的发展,其实这不是天方夜谭,看看微软的Windows操作系统和IBM的标准PC的崛起带给这个世界的变革吧!


      一切都将归入存储软件市场
  
      说来说去,硬件的性能发挥总是依赖于软件的良好控制的,如果没有良好的软件,这一切都是白费。一个月前IDC的存储软件市场报告,让我们看到了存储软件市场的整体发展,IDC通过对2007年第一季度全球存储软件市场的调查发现,在2007年第一季度,全球存储软件市场收入相比去年同一季度增长了11.4%,整体收入达到27亿美元,而这样的增长,存储软件市场已经连续保持了14个季度。
  
      当用户面对越来越多的,因为提升价值,保证正常企业运营而不的不做的存储工作时,各种各样的“存储业务”也让CIO们颇为头痛,在IDC发表存储软件报告时,IDC负责存储软件市场研究的经理Rhoda Phillips,表示,由于归档、复制和文件系统软件市场的增长以及用户对存储软件的旺盛需求,使得存储软件市场每年能够保持高速的增长。存储能为客户在错综复杂的背景下提供持续的解决方案,以保证数据可用性、数据恢复以及异构环境下的信息访问。
  
      无论从对数据有效管理还是众多不得不做的存储业务上来看,这些管理和业务都是需要通过软件来进行的,我们无法现象一台没有软件的存储硬件将会是什么样子,当然,即使是有了那些功能简单的存储软件,企业的业务系统也不过是瘸子、瞎子、聋子而已,想让这些系统支持企业运营,不如直接把企业卖了套现合适??这样说或许有些过分,但是很多CIO都听过于此大致相同的来自老板的责难。
  
      随着用户数据的飞速增长,用户们在对数据的存储上,提出了更多的管理需求,越来越多的商业机构也看到整体的数据解决方案与优秀的存储软件能够比现在更有效的存储、管理和利用他们的信息,所以存储软件市场获得了潜在的增长动力。正因为如此,拥有良好存储软件的存储系统,要比以前简单的存储数据,或者说存放数据要好得多。因此,越来越多的用户倾向于在购买存储容量的同时,通过购买软件并实施相应的存储解决方案的来完善自己的存储系统,以完全发挥存储设备性能。
  
      所以,在存储容量不断增长的背后,有一个更加庞大的市场在等着存储厂商们,虽然存储软件的市场已经发展了很多年,包括EMC、Symetec、NetApp在内的厂商都已经尝到了不少的甜头,但是当我们面对“EB”级的数据量的时候,当我们面对信息资源的利用的时候,当我们面对数据复制、备份、归档、灾难备份、数据迁移等等不能不考虑的业务的时候,可能这个市场的潜力还远在我们的预料之外。
  
      写了这么多,我都懒得去收尾了,实际上,在我敲打这些字的时候,我就在创造信息,在增加这个数字宇宙的信息量。其实,整个数字宇宙的爆炸,未尝不是一件好事,就像我的创造一样,越来越多的知识、经验因为人类的不断探索而被创造出来,所以数字宇宙的爆炸,绝对是一件好事,而不应该成为我们的负担,我们所要做的就是再次开发我们的智慧让数字宇宙更加绿色和谐。


      参与讨论,请点击此处http://space.doit.com.cn/47675/viewspace-2434.html


 

未经允许不得转载:存储在线-存储专业媒体 » DoSTOR专家博客 拯救数字宇宙中的残酷存储现实