数据存储产业服务平台

DoSTOR存储专访 基于对象并行集群存储获青睐

      DoSTOR存储专访:“如果在你的计算集群系统背后,没有可以良好扩展的存储集群的话,那么,你的计算能力将因为无法获得数据而白白浪费。”一位做计算集群多年的工程师这样对我们说到。也许在几年以前,当我们的企业部署计算集群的时候,还没有面临存储带来的巨大压力,但是今天,他们已经意识到,让计算集群能够良好运转的,不仅有软件、工程师以及电力和散热,更重要的是,其背后强大的“数据供给”??存储集群。
  
      近日,Panasas公司总裁兼CEO Victor Perez先生来到北京接受了我们的专访,刚刚开始,Victor Perez先生就向我们介绍了“Panasas到底是一家什么公司?”,他分列开Panasas的每一个字母,“Panasas的每一个字母都有其完整的单词,这些字母组成Panasas,其含义也组成了Panasas”,他表示,Panasas是一个结合了软件、网络、存储为一体的,提供Linux集群存储产品的厂商。
  
      随着众多行业的自身发展,其企业的应用要求更强的计算和分析海量数据的能力,从而完成企业业务的需求,目前来看,Cluster集群以其巨大的可扩展性和计算能力,对不断提升的对高性能计算的要求有着天然的“吸引力”。而在基于包括Windows、Unix、Linux众多系统的集群中,Linux集群因其开放性、较低的价格、良好的性能以及并不输于Unix集群的稳定性,成为了很多企业建立集群时的首选。
  
      Linux集群在如石油勘探、气象、地震海啸预警等方面大展拳脚的同时,存储却成为了限制Linux集群的发展羁绊。我们知道集群中节点众多,其每个节点及整体的计算量都非常大,所以才能完成企业大规模的高性能计算任务,但是这些计算能力都是要以存储系统能够提供充足的数据为前提的。Victor Perez先生谈到,以现在中国的很多油田为例,他们为了完成计算任务,不断的加入新的节点,虽然提高了整个网络内的集群的计算节点,结果却带来了很大的存储问题,存储系统的I/O带宽难以为继,很多计算节点因为无法获得数据而被迫停止运算或降低运算效率。
  
      存储集群的领导者
  
      作为专业的存储厂商,Panasas建立的初衷就是为了解决集群系统的存储问题而成立的,而目前Panasas主要的经历也就是在发展速度迅速的Linux集群存储上。他谈到,Panasas公司在发展战略上一直致力于为Linux集群提供基于通用以太网的并行存储解决方案,解决随着服务器节点的不断上升,而带来的存储I/O性能受限等问题。目前该公司的产品较多地应用在“Las Alamos”等美国国家实验室和大学等研究机构,而在中国,Panasas已经成功的进入了石油行业。
  
      谈到集群存储,很多用户可能提一个头疼的就是存储池的问题,Victor Perez先生认为目前的存储行业,提供的存储设备可以分为三个层次,第一个层次是以SAN、NAS、DAS为主的低端网络存储;第二个层次则是一些初级的存储集群,这些存储集群是利用一个软件来管理不同的存储池,整个存储集群中,仍会形成两个甚至三个截然不同的存储池。甚至可能NAS 池和 SAN 池分别部署在由不同供应商提供的不同存储平台上,而且各自都有自己独特的管理工具。结果,不仅增加了系统的复杂程度和系统管理员的负担,而且增加了费用。第三种,则是以Panasas、Lustre、GPFS为代表的能够建立单一卷的高端存储集群。他表示,作为能够并行管理多个存储池并让用户在应用中只需面对一个单一的卷的存储集群,目前Panasas的存储集群是业内的领先者。
  
      谈到存储集群,不得不提到目前Linux集群的存储问题,我们知道一个Linux集群有着成百上千的计算节点,这些计算节点通过或独立运算或通过分布式软件进行分布式计算,而在计算过程中获得数据,就成了目前用户集群系统面临的最大问题。如果还是采用传统的连接和存储方式已经不能满足系统的需求。
  
      基于对象与并行存储技术
  
      谈到Panasas的存储集群,Panasas的工程师说起了Panasas的两大优势,基于对象和并行文件系统。
  
      我们知道为了弥补SAN和NAS的不足,Linux 集群的新型文件系统??对象存储文件系统成为了Linux 集群系统高性能文件系统的市场热点,对象存储系统是一种基于对象的高性能分布式文件系统,它将数据以对象的方式存放在存储设备中,对象是系统中数据存储的基本单位,一个对象实际上就是文件的数据和一组属性的组合,这些属性可以定义基于文件的 RAID 参数、数据分布和服务质量等。在基于对象的存储系统中,所有的对象通过数据布局的策略分布在磁盘上,而传统的存储系统中用文件或块作为基本的存储单位,在块存储系统中还需要始终追踪系统中每个块的属性。
  



基于对象的存储文件系统



  
      Panasas的工程师表示,这样一来,存储系统为用户提供了可以跨存储节点的最大可能条带化使用体验,即无论用户的系统有多少磁盘,它将不受RAID的磁盘限制,存储到所有的存储设备上,同时,这些数据对象可以无限制的改变大小并且与其它存储系统活动无关,在一个单一命名空间内可以管理所有数据并且提供独立的和并行的增长特性。
  
      另外,Panasas的集群系统上捆绑了一种被称作Panasas ActiveScale文件系统(PanFS)的独家专利并行文件系统。PanFS文件系统设计成能动态地将指挥刀片和存储刀片联接到一个单一集群的存储网络中。不同于传统的网络存储系统需要昂贵的文件服务器升级,增加指挥刀片和存储刀片,提供一个单一的,可扩展的存储集群就能够容易地提高Panasas系统的性能。每个新的指挥刀片增加一个数据通路,就提高了总体系统性能。
  



存储刀片与客户端连接并行文件系统示意图


      目前PanFS能够同时支持所有三种数据访问协议?DirectFLOW,NFS和CIFS。多个客户端(服务器节点或工作站)能够使用客户端各自需要的协议访问Panasas存储集群,这样一来,便能使存储系统的利用率达到最佳化。
  
      线性扩展成为亮点
  
      Linux集群中,每一个用户都面临着随着用户Linux集群中节点的不断增加,其要求的存储集群也需要相应的提升容量,而对于很多原有的存储集群来说,提升容量并不能提升速度,这样一来,即使提升了容量,节点也会因为无法及时获得数据而遭遇性能的瓶颈。
  
      在谈话中,Panasas的工程师表示,在Panasas的存储集群中,他们已经针对这种情况研发了解决方案。他表示,在Panasas的系统中,容量的增长不仅没有限制,而且性能随容量的扩展而提高对于用户来说是非常简单的。Panasas的产品最大的特点就是线性扩展,也就是说,存储集群的性能是随着容量的扩展而提高的,即线性提高。
  
      说起线性提高,Panasas的工程师表示,这有赖于Panasas的DirectFLOW数据通路,带外的DirectFLOW数据通路为文件系统主干创建了高度并行的路径??Panasas能够从数据通路中分离出控制通路,在集群节点和独立的存储刀片之间建立多个并行数据路径。每一个集群接点都可以与Panasas存储设备之间进行直接访问,对于Linux集群上的每一个计算节点来说,通过Panasas的存储解决方案,都可以去访问实际的存储设备。不存在传统SAN和NAS存储系统固有的I/O瓶颈和扩展困难问题。这种数据传输的能力使得系统性能与系统容量的增加成线性关系。这样一来,集群中的所有节点能够同时以最优的速度存取数据。
  
      启动直接的数据传送只需简单的三个步骤:
  
      1、DirectFLOW客户端向指挥刀片发出存取数据文件的请求 
  
      2、指挥刀片认证这个请求,获得跨越存储刀片的所有可应用的对象布局图并且发送布局图到客户端 
  
      3、由认证和虚拟布局图,客户端在存储刀片上直接地以并行方式存取数据 
  
  
  



 


带外的DirectFLOW数据通路


      同时,pannasas的存储集群还有一个特殊功能就是单一命名空间。集群之所以被称为集群就是因为整个系统是由很多计算机所组成的,并且会随着需求而增加节点??存储集群也面临着这样的问题。就像我们上面所说的,原有的SAN和NAS的问题就在于多存储池的复杂管理,而Panasas则能够并行管理多个存储池并让用户在应用中只需面对一个单一的卷的存储集群,我们称之为单一虚拟存储卷,用户的管理工作、复制工作大大减少,所有的节点可以通过同一个虚拟存储卷获取和交流数据。可以说,性能的线性提高也正因为次才能够实现??制约系统性能增长的原因也包括管理的复杂度。
  
 



Panasas系统可扩展性能示意图
  
  


      于是,在这种环境下,计算节点和存储节点的扩充都不会对用户的应用产生影响,对于用户来说,计算节点和存储的扩充都不会产生不良影响,从而成为了一个完整的可扩展的存储集群。
  
      在中国会获得更多机会
  
      谈到中国的发展,以及对存储集群的迫切需求,Victor Perez先生很自豪的表示,“我来过中国六次了,每一次来都感觉像来到了一个新的世界,中国的发展实在是太迅速了。” Panasas公司总裁兼CEO Victor Perez先生在谈到中国市场时这样表示。





Panasas公司总裁兼CEO Victor Perez先生


      自从两年前Panasas进入中国,并以石油行业作为其主要目标之后,现在的Panasas随着中原油田物探研究院项目的顺利完成,其面向对象的集群存储系统已经成功部署到了中国石油集团,中国石化集团和中国海洋石油集团三大石油及天然气集团公司中,Panasas作为提供基于对象的并行Linux集群存储系统的专业提供商,已经在中国有了长足的发展。而在今年,Panasas计划在中国开办办事处,立足国内进行发展, 并希望进而进入如汽车、航天航空、生物工程等新的领域。
  
      Victor Perez先生表示,这些石油企业之所以选择Panasas集群存储系统,是因为其将硬件和软件集成一体的性价比优秀的解决方案,它将并行文件系统和面向对象的存储技术结合在一起,从而使用户能够快速而无缝的集成到原有的系统架构中。随着中国市场的不断发展,以及中国企业对新技术接受程度的不断提高,Panasas将会在中国获得更多机会。

未经允许不得转载:存储在线-存储专业媒体 » DoSTOR存储专访 基于对象并行集群存储获青睐