分布式云存储提升赞奇科技云渲染平台三倍性能
IT邵年 发表于:14年06月17日 15:22 [原创] 存储在线
随着IT技术的大规模应用,海量数据的存储和处理在多媒体行业中应用越来越广泛,在影视动画领域更是如此。但是,传统的存储设备与架构对那些初创的设计公司来说,实在是价格昂贵,所以他们试图用最近出现的云存储技术来解决自己的实际问题。下面这个例子就是利用云存储技术在动画公司渲染流程中的一个应用典型。
背景介绍
赞奇科技是国内一家专业从事三维图形云渲染服务的公司。他们把图形高密度计算通过云计算手段面向CG行业(电脑图形/数码图形行业)提供在线实时渲染服务。渲染是三维动画片制作流程中的必要工序,即在CG的原始模型文件中设置物理的光影和材质信息来生成一组连续帧的图像的过程,这需要大量计算资源的计算。2001年,梦工厂、皮克斯等国外公司首先提出了数字化的影视技术的概念,掀起了三维动画技术的革命,通过这些年的发展,渲染计算的规模随着电影技术的发展而逐年增长,渲染产业也逐渐成为CG数字影视的重要支撑。
赞奇科技围绕图形渲染核心业务圈发展,专注两个核心产品及服务的研发与应用推广:渲云平台和Elara渲染器。“渲云”通过云计算的模式为CG行业提供专业便捷的一体化云渲染服务,他们的云渲染数据中心坐落于江苏常州,而服务的客户却遍布全国,这得益于云计算模式在渲染计算中的应用:小文件更多是通过插件和客户端由客户在线自助操作完成,大客户则是通过专属的数据通道,由专业的渲染工程师一对一提供远程服务。而赞奇科技另一个重要的产品——Elara渲染器则是一款具有自主产权的电影级高端渲染计算引擎,它采用更加精简的内核设计和操作流程,渲染效果堪比国际顶级动画大片。公司通过将这两者进行软硬件的完美整合,为CG行业提供全方位的渲染技术解决方案。
主要挑战
渲染平台在建设过程中面临的主要挑战是什么? 集群渲云平台是典型的I/O密集型高性能计算应用,任务提交到集群调度系统后,Head Node 为任务指派空闲的Computing Nodes或进行队列编制,Computing Nodes接到调度指令后立即到存储路径下读取待处理的数据,该过程是多节点并发的,存储系统并发I/O吞吐压力与集群规模成正比,在渲染任务处理过程中,所有渲染节点仍然会有和存储节点的频繁数据交互过程,直到每个节点分别完成各自分配的渲染任务并将结果回存至存储目录下。存储系统的I/O吞吐压力在渲染作业执行过程中持续存在且在任务分发阶段最为明显,存储系统的性能偏低会导致Compute Nodes迟迟不能从存储节点拷贝到数据,进而影响渲染作业的启动。
如何给出合理的框架和有效的设计方法,来建立高性能、高可伸缩、高可用的文件存储服务,是摆在系统设计者面前极富挑战性的任务。
赞奇科技发展有限公司总经理杨昕吉向笔者介绍说:“由于计算机物理的I/O瓶颈制约,我们在构建存储系统的时候受限于单个存储硬件设备的性能特点,很难提高存储性能。随着机器规模的增加,存储系统的访问量会呈指数增长,一旦到达极限值,机器的规模便没有办法扩展。然而要渲染《疯狂原始人》这样的电影,几百台机器的规模是没有办法承担这样的业务需求的,梦工厂的影片渲染也基本上要一千台、两千台的规模。但是我们前期建设的数据中心,100个计算节点同时计算的时候,存储性能就已经达到极限,在往上扩展的时候,渲染性能就会整体下降,这个问题曾经是我们业务发展的最大的阻碍”
Intel与集运提供的分布式云存储方案
赞奇科技发展有限公司总经理杨昕吉向笔者介绍说:“我们公司是去年下半年的时候和集云合作共同搭建了现在的渲染数据中心,这个机房采用的是英特尔具备多种创新设计的至强E5-CPU,帮助我们搭建起更加高效、灵活、开放和低成本的全面解决方案。第一期以500个计算节点的规模进行实施。目前基于集云的IDC技术,我们未来可以扩展到1500-2000个计算节点,渲云平台的规模及性能目前在国内也处于领先地位。”
因为此前采用的是磁盘阵列的方式,最终计算性能就受限在存储读取设备上。而此次我们做了分载,通过分布式系统进行存储,采用了集云的一体化的系统,实现稳健的快速存储、访问及安全规范。
江苏集云信息科技有限公司CEO陈宝辉对这个项目有清晰的认识:云存储就是摆脱单存储节点的瓶颈,往横向扩展(scale-out),横向扩展存储是这个项目的关键,用低成本的存储服务器能够横向扩展达到高性能的要求。这就是通常说的云分布存储方案在赞奇实现的一个关键。
江苏集云信息科技有限公司CEO陈宝辉总结道:其实云渲染主要用了两个能力:计算能力、存储的读写能力。因为是并行渲染的,500个节点接到渲染任务,500个节点同时渲染。同时渲染的时候,等最后一个节点完成才能并行往下处理第二步,所以某个单节点如果很慢就会产生一些问题。这些问题,大部分瓶颈不在计算上,而是在存储上。普通存储应对并发访问的时候往往成为瓶颈,导致系统处理速度就变慢,这个挑战就是我们和英特尔合作的契机。英特尔有一个横向扩展存储参考设计,我们参照它的参考设计,设计了一体化的存储产品,包括服务器、网络、存储系统全部集成,然后跟客户一起调优。赞奇项目是我们第一个在云渲染存储的应用。在项目测试中,我们的存储达到了设计峰值,它的能力都用上了。
整个系统真正做到了分布式的,核心就是横向扩展(scale-out),如果将来它的存储能力不够,那么通过不断增加存储节点,系统存储能力和I/O并行能力可以随时无缝升级,这是传统存储做不到的。而且我们的产品不仅满足性能的要求,同时为用户实现了较低的成本。比如我们使用的硬盘,就不是价格昂贵的光纤盘,而用的是廉价的SATA盘。通过对每次读写速度的测量、调优,到达性能和成本兼顾。云渲染中对存储有独特的访问模式,通过大量调优我们的横向扩展的存储技术来达到并发渲染高性能的要求。从效果来看,大概成本是原来存储设备的三分之一到五分之一,但速度高几倍。
同时横向扩展存储的管理性也很重要,比如有防硬件故障、防锁,集云是英特尔的服务器方案合作伙伴,很多技术都通过与英特尔的合作实现。我们下面将和英特尔在另一个横向扩展技术Luster存储方案上合作,实现有更多商业支持的解决方案。
设备定制化让性价比更好
除了整个系统架构的改变,出于性价比的考虑,各种设备也采用了定制化。刚刚大家已经看到了存储采用的是SATA硬盘,其实服务器也是定制的。在这个项目中,我们开发了中国第一个托盘式的服务器产品。
托盘式服务器在Facebook是用到过的,它为Facebook三年节省了20亿美金。而这个项目中,同样采用了这种设计,从而让用户的成本也降低20%,性能则提高20%,所以整体就有40%的性价比的提升。谈到整个项目Intel公司提供的帮助,江苏集云信息科技有限公司CEO陈宝辉说,跟英特尔的合作在很多上面都是方案定制服务。,因为现在的市场竞争已经不是在某个局部技术上的竞争,而更多是一种方案的竞争。我们的方案是根据用户的需求定制的,在服务器设计时把CPU设计在哪个位置更节能,机构如何设计更有利散热并降低成本等,,这些都是根据特定的用户需求定制的优化实现方案,这样形成了集云独特的竞争力。云存储也是这样,我们能用SATA盘达到光纤盘的速度,有巨大竞争优势的创新,同时成本也降低了很多。
依托与Intel的合作,整个的架构其实我们没有在基础设计上投入太多,。我们的投入更多地是在Intel的基础技术上为用户进行量身定制方案设计和服务这是很好的一个合作共赢模式。
整体性能提高三倍
赞奇科技发展有限公司总经理杨昕吉作为用户对这套系统还是非常满意的,他说:“采用这套系统之后我们整个访问效率大大提升。第一,存储设备的网络占用率明显下降,比原有占用率下降三分之二。第二,整体系统存储和访问速率提升三倍多。使得整个系统规模目前已经可以突破到500台。我们系统的负载有一个自动调配的过程。通过英特尔至强服务器,充分降低了我们TCO的指数。目前渲云数据中心已为上千家客户提供服务,如苏州米粒、常州的恐龙园动漫、卡龙、炮炮兵,苏州天润安鼎等。”
总体来说,这一套新的计算架构存储效率确实比以前读取稳定性更高。当然,新系统还有一些挑战,杨总也希望和集云陈总和英特尔继续探讨超大规模的并发访问。赞奇目前是500台,但是远期的目标是要做到2000甚至5000台,因为只有这样才可以面向好莱坞的影片提供高性能的渲染服务。