数据存储产业服务平台

中科储天公司之新媒体行业蓝鲸存储解决方案

      2006年以视频网站为代表的新媒体迅速崛起,例如,IPTV、视频分享网站、视频搜索网站、有视频服务的互动社区、交友、博客、播客等新兴媒体发展迅猛。新媒体行业现已成为众多产业关注与投资的焦点,这为新媒体产业的发展提供了良好的环境基础。2006年,伴随着投资、收购、合并等产业的变革,更为新媒体的高歌猛进提供了动力。在新媒体行业发展前景一片大好的同时,问题也随之显现,到2007年情况发生了一些变化,资本对新媒体行业变得谨慎,对商业模式的创新和成本控制提出了更高的要求。


      IT架构将会如何应对商业模式创新和成本控制的挑战?商业模式的创新,需要满足人们对更丰富多彩的媒体资源的渴求和交互体验的欲望。仅有纯文字的表现形式已经不能满足需求,用户需要更丰富的数字出版物、图片、声音以及视频来表达和交流;仅有单向的传播已经不能满足需求,用户需要更丰富的交流与互动体验;IT架构必须能够承载和传播这些承爆发式增长的非结构化的数据。成本控制的压力,需要我们采用可扩展的柔性结构,IT架构的整体拥有成本最好能随着业务需求的增长而增长,而不是需要超前的投资。然而,用户访问量的增长却从没有停止过……相对于传统应用,视频应用有着非常大的用户数量上涨空间,随着网站的优化整合,用户将更加集中于优秀的新媒体,IT设施将面临更大挑战……


      那么,新媒体需要什么样的IT结构、什么样的存储系统能够更好的来支撑商业模式的创新,并合理的控制成本呢?下面将以在新媒体中最具代表性的视频分享网站为例,来分析新媒体对IT结构及其中的存储系统的需求。


      首先,我们看视频网站的IT结构:分别由流媒体服务器、Web服务器、在线录制服务器、视频转换服务器、数据库服务器、管理服务器、图片服务器和其他服务器等一系列不同数量的服务器组成。



   
      由这几个部分组合起来的IT结构,如何才能支撑视频分享门户的竞争优势呢?我们从以下两方面来分析:


      1. 交互性体验方面:


      首先,为满足用户对交互体验的需要并保持自身的原创优势,需要为用户提供视频上传和在线录制视频的功能;其次,需要把不同格式的视频,转换成该网站统一的格式;最后,需要在上传后尽快发布以供播出。


      2. 服务压力方面:


      首先,不但需要应对已有的大数量的用户访问,而且将迎接持续的访问量增长;其次,当用户访问量增加时,需要保持良好的反映速度和响应时间;最后,必须面对清晰度日渐提高后,码流增大所带来的服务压力。


      在各个技术层面上,我们如何更好的满足上述诸多需要呢?


      1. 在编解码技术层面:编解码技术不断推陈出新,我们可以看到解码效果更好,编码压缩率更高的编解码方式等诸多方面均有良好进展。尤其是由中科院计算所牵头制定的AVS标准,是具有我国自主知识产权的新一代编解码标准,将促进我国新媒体行业的健康发展。


      2. 在媒体的传输层面:CDN技术已经比较成熟,P2P技术的发展也非常的迅速,虽然存在缺乏统一标准等问题,但无法掩盖P2P技术的锋芒。目前,已有不少的视频平台运营商采用了P2P技术。此外,CDN+P2P的复合技术也有了比较好的发展。


      3. 在媒体的服务提供层面:服务器集群技术已经相当成熟:双机到多机的数据库集群、由DNS轮询或相关技术实现的Web服务器集群、由相关查询指向技术实现的流媒体服务器集群等都可以比较方便的实现。成熟的服务器集群技术可以实现按需增加相应应用服务器来应对业务需求,足以为新媒体行业提供良好的支撑。


      4. 在媒体资源存储方面:需要有大容量、高带宽、可共享的存储技术来支撑,而传统的存储结构和存储技术,却不能很好的满足视频网站的存储需求。那么视频网站在存储方面都有什么具体的要求,怎么样才能够满足这些要求呢?


      下面我们通过一个实例来详细分析视频网站的存储需求:


      首先是选择存储系统的体系结构。传统存储的体系结构无非有两种:集中式和分布式。新媒体存储方案面临着集中式存储和分布式存储两种选择,两种结构各有优缺点,选择起来其实是比较困难的。本案中的视频网站的存储结构经历了“集中–分布–分布式的集中存储”的变迁:


      网站建立之初,采用了集中式的存储结构。 


      集中式的存储方案如下图:




      很多新媒体的存储采用的大多类似于上图的、集中式的存储结构来存放所有媒体数据,通常为NAS架构。简单地说,就是一台大容量的文件服务器,而高端的NAS结构是由一个NAS头后面接SAS、SCSI或光纤盘阵。


      集中式存储的优点是比较明显的:


      1. 集中存储可实现服务的负载均衡,由于流媒体服务间的数据都是共享且统一的,当发生热点繁忙时,所有流媒体服务器都可为其提供服务,分减压力,而不像分布式的存储会出现热点繁忙,没有热点内容的存储出现空闲这种不均匀情况。


      2. 集中存储提高了存储资源的利用率。


      3. 集中的高Raid 级别保护且成本较低,分布式存储都实现Raid保护成本高昂。


      4. 集中的备份(快照)恢复,能方便的实现远程容灾。


      5. 集中存储方案管理复杂度相对较低,以管理Mount点为例:需管理Mount点的数量为16(M+N+F+W)个,即上图中的16根蓝线。


      6. 集中存储同时也是对流媒体服务器视频内容的集中管理。


      基于以上优点,在视频网站发展和访问量增长的同时,该网站最终还是放弃集中式的存储结构转而采用分布式的存储结构,这是为什么呢?


      原因是:NAS头成为存储瓶颈……



  




   
      在这幅图中,我们可以看到传统的集中存储方案中,存在如下问题:


      –I/O瓶颈


      –容量扩展性差


      –性能不可扩展


      –专业高端NAS成本高昂


      –单点故障


      随着数据量的增加,存储压力也变得越来越集中,NAS已不足以支撑现有的应用,无法更好的应对未来的挑战。既而,该网站从集中式的存储方式转向了采用分布式的存储方式。




   
      图中,每台服务器上都提供文件共享服务,由应用层来实现媒体资源数据在各个服务器集群之间的迁移,从而比较好的解决了集中存储的IO瓶颈问题,但是问题也随之而来。


      –分布式的存储没有负载均衡,例如:发生热点的时候、部分流媒体服务器忙或部分闲置


      –分布式存储利用相对较低率,重复数据大量存在,且份数多


      –无法实现集中的高Raid 级别保护


      –快照、备份、恢复、远程容灾比集中存储实现成本高


      –需要在应用层对存储层过多关注。管理复杂度程几何级增长,整体系统维护工作越来越复杂、繁重。以管理Mount点为例:同样的服务器数,需管理Mount点的数量为48 [M*(N+F)+W*N]个,即上图中的48根红线,远大于集中存储结构。这仅仅是Mount点一项,还不包括各个点存储数据的维护,在实际应用中相关的工作量是相当惊人,管理员疲于奔命。


      既然传统的集中和分布都存在不同的问题,怎么样去解决?在给出答案之前,我们重新归纳前面分析的视频网站对存储的需求:


      1. 各种服务器集群之间有视频传递的需求,需要上传服务器、流媒体服务器、在线录制服务器和转换服务器之间的视频文件是互相可见的,翻译成存储的语言则需要文件级共享的存储。


      2. 各种应用服务器可能使用着不同的操作系统平台,都需要无差异的访问到存储空间,而翻译成存储的语言则需要跨平台共享的存储。


      3. 多台流媒体服务器之间的存储容量需要共享,从而提高存储空间的利用率。如采用传统SAN上面划分独立的存储空间,给每台服务器的类似做法显然是不可接受的,并且需要视频内容合理的分布在各个存储设备上,翻译成存储的语言则需要存储容量的负载均衡。


      4. 单台存储设备的存储速度始终是有限的,需要多个存储设备的聚合才能满足视频内容访问量的爆炸式的增长,翻译成存储的语言则需要多台存储设备间的存储速度的聚合,从而实现存储速度的负载均衡。


      5. 新增视频内容的不断添加会导致存储容量的不断扩大,在添加设备扩展容量的时,能够不影响原有系统,且平滑扩展,能够实现在线的扩展业务系统不停机,翻译成存储的语言则需要容量线性可扩展,能够实现在线扩容。


      6. 随着用户访问量增长和视频清晰度提高带来的带宽增长等诸多增长因素的影响,对存储带宽的增长需求,要求存储系统实现带宽随容量呈线性增长。


      7. 合理的成本控制是一个恒久的话题,需要存储系统的总体拥有成本随容量的扩展而合理的扩展,不能出现突变式的增长。


      8. 稳定性自然不用说,需要存储系统采用冗余结构以提高系统的稳定性。


      为了满足上述需求,当我们面对“集中VS.分布”这个艰难抉择的时候,技术的不断进步,涌现出:分布式的集中存储结构??集群存储技术,其核心技术是集群文件系统。


      目前,广为流行的集群文件系统的典型代表主要有:


      –Google 的GFS (Google File System)


      –中科储天公司的BWFS(Blue Whale File System)


      –Panasas 的PanFS (PanFS File System)


      –IBM 的 GPFS (General Parallel File System)


      –CFS 的 Lustre (Lustre File System)


      由中科院计算所工程中心自主研发的、后经中科储天公司产品化的蓝鲸集群存储系统(BWStor)是以蓝鲸集群文件系统BWFS(Blue Whale File System)为核心技术的集群存储系统,是一种分布式的集中存储系统。它可以很好的满足以视频网站为代表的新媒体行业的存储需求。同时,BWStor是具有中国特色的自主知识产权存储产品的杰出代表之一。


      BWStor 的特点可完全满足视频网站对流媒体服务的存储需求,其特点如下:


      . 统一的全局命名空间


      . 文件级共享


      . 先进的分布式存储结构


      . 高的聚合I/O带宽


      . 跨Linux平台和Windows平台的文件共享


      . 分布式结构,卓越的扩展能力


      —线性扩展I/O带宽


      —良好的系统负载平稳性


      —动态扩展存储容量


      . 维护简便??管理、监控一体化


      . 高可用??全冗余的结构


      . 部署快速??接入以太网交换机,安装客户端,即可使用


      . 成本可控??成本随容量和速度的增长而增长


      BWStor所具备的特点,很好的切合了视频网站对存储的需求:


      –文件共享、统一的全局命名空间??上传服务器和流媒体服务器之间的文件可见性;多台流媒体服务器间的存储容量共享


      –多台存储设备间的存储速度的聚合??流媒体服务器可用的存储速度负载均衡


      –跨平台共享(Windows/Linux)??支持不同平台的流媒体服务器、上传和其他服务器


      –容量线性可扩展??使流媒体服务能应对不断扩大的存储容量需求


      –带宽随着容量线性增长??使流媒体服务能应对不断扩大的用户访问量; 可以按需扩大流媒体服务器的数量而不用担心存储


      –成本需随着容量的扩展而扩展??良好的成本控制


      –全冗余结构??稳定的强壮的存储系统


      BWStor逻辑图如下:




   
      作为第三代的存储技术,BWStor采用带外体系结构,能够支撑优质的流媒体服务、提升新媒体的核心竞争优势、充分满足现有需求,并可积极地应对未来业务发展对存储应用提出的巨大挑战。BWStor的使用和管理与集中式存储一样方便,拓扑图如下:



  
   
      随着新媒体行业的发展,大家都会遇到各种各样的存储方面的问题,非常欢迎业界的朋友与笔者共同探讨有关新媒体行业的存储问题。


      MSN:zhilizhu@hotmail.com
      E-mail:zhuzhili@nrchpc.ac.cn




   
  

未经允许不得转载:存储在线-存储专业媒体 » 中科储天公司之新媒体行业蓝鲸存储解决方案