随着大数据的到来和云规模的数据提供,公司用户们正积极部署前沿服务。“极限”应用程序,比如大规模语音和图像处理或复杂的金融分析模型,会将存储系统推到它们的极限。一些解决方案的例子包括大规模图片识别应用程序和基于高速决策的金融风险管理。
这些突破性的解决方案,由许多不同的活动组成,但是都有类似的数据存储挑战,它们带来了新的潜在收入流。
每天在Taneja Group这里,我们看到越来越多的主流企业在探索类似的“极限服务”机会。不过,当企业IT数据中心开始被要求承载并提供这些新服务的时候,传统的集群式甚至向外扩展文件系统–大部分企业数据中心(或云提供商)大量采用的–开始明显无法满足性能要求。
现在市场上已经有优秀的企业存储解决方案来针对那些需要很高的裸吞吐率、高容量、并行访问、低延迟性或高可用性的应用程序–可能甚至还能同时满足其中两到三个要求。但是当一个“极限”应用程序需要在同一时间内满足所有这些要求的时候,只有并行文件系统形式的超算类型存储才能提供一个可行的解决方案。
问题是大部分商业企业无法承受或这种昂贵的方案或不能冒险将业务基于这种昂贵的研究项目。
好消息是一些存储厂商已经在工业化以前的超算存储技术,将大规模并行文件系统转变成在商业上可行的解决方案。这给革命性的服务创建打开了大门,使主流的企业数据中心可以支持自己的单位探索新的极限应用程序。
企业数据中心的高性能计算
每天各个机构都在创建越来越多的数据,这种数据增长给已经苦于现有负荷的存储基础设施带来了挑战。除此之外,我们还开始看到许多主流企业推出新的重负荷应用程序以便挖掘新数据的价值,这给存储系统带来了新形式的“压力”。在生产环境下,这些极限应用程序可能要求存储系统像高性能计算(HPC)研究项目那样运行而不是像传统商业操作或用户生产性解决方案那样运行。
这些新应用程序包括“大数据”分析、传感器和信号处理、机器学习、基因、社交媒体趋势和行为建模。其中许多应用程序原来是在超算环境中开发的,现在正在被尝试应用于更加主流的商业解决方案中。
我们都听过大数据分析和向外扩展地图减少类型的数据计算,它们可以在“极其并行”的方式下处理,不过现在新兴的极限应用程序还要求高吞吐率共享数据访问。这里面的例子包括一些领域(比如图像处理、视频转码和金融风险分析)内极其有趣的商业机会。
在“大星球”上找到“小丑鱼”
一个很好的极限应用程序例子就是大规模图像模式识别。想象一家如果你知道客户在哪里,他们生活的建筑类型,他们与其他人的地理联系以及他们使用的能源情况,这里面的商业机会会有多大?我们听过的一些基于图像的地理应用程序包括优先推销绿色能源解决方案、改进交通规划、路线优化以及零售/批发细分。
例如,现在详细的“头顶”图片(比如你在谷歌地图上看到的卫星图片)可以在商业上分析确定建筑物并估计它们的形状、位置、停车场情况、景观、屋顶建筑以及建筑细节。结合来自公共设施、评估记录、入住率、建筑许可和税费的公开可用信息,然后再解决电话号码、IP地址、邮箱和电子邮件地址,你可以进行一次“大数据”分析。大规模的分析涉及到在高性能工作流中对上亿个这种图片和数据对象进行处理。
渴求内容的设备世界
作为另一个例子,由于移动设备上爆炸式增长的媒体创建和消费,视频转码的需求和使用情境每天都在快速增长。在如今的互联网连接的设备世界,每个被创建出来的视频片段平均要被“转码”到差不多20个以上的不同格式以供用户消费。
转码操作开始于最高分辨率的文件,通常是在一群分布式服务器上并行进行。性能通常是要求达到顶峰,因为许多视频应用程序是有关体育或新闻的,价值窗口时间很短。竞争性的商业转码解决方案要求的是在快速读取和大规模写入方面都进行优化的快速的存储解决方案。
钱、钱、钱……
在金融服务部门,收入就是数字、速度以及在控制风险的同时在正确的时间做出最好的决策。
我们看到在金融服务公司,数据抓取、算法开发、测试和风险管理项目都在将性能要求推向传统存储的极限。对冲基金和交易公司正在开始利用并行方式以便更快地分析仓位和实施交易策略。通过使用支持大规模并行数据访问的可扩展系统,研究人员可以分析更大的数据集,更快地测试更多的情景和模型。相同地,风险经理也在提高他们的评估能力,从原来一天一两次评估总的市场头寸到在更短的时间间隔内进行评估。
所有这些都直接关系到钱和竞争优势。
极限云应用程序
如果现在有一个“正常的”云存储这样的东西,那么它的速度会被认为比“网速” 要慢。但是考虑极限应用程序的企业也可以通过云托管而不是构建内部基础设施来寻求灵活性和弹性,尤其是当主要数据来源是Web 2.0应用程序的时候。
随着一些像Amazon Web Services这样的云服务提供商克服数据I/O和存储挑战并为IO密集型大数据和视频转码提供云托管,我们预计许多服务提供商将积极提供支持极限应用程序的服务。
救世主并行文件系统
极限应用程序带来了一些有趣的存储系统挑战,不过这些挑战可以由并行文件系统来解决。
并行文件系统是基于向外扩展存储节点,可以扩展和同时服务于来自多个节点和磁盘的大型文件。和向外扩展集群式NAS(网络附加存储)不同的是,这种NAS可以在同一时间将许多文件独立提供给不同客户(比如,在大型企业的托管家庭目录或完全分区/共享的大数据块),而并行文件系统可以在同一时间为许多互相联系的处理节点提供大型共享文件。
基于Apache Hadoop(配置HDFS)的大数据解决方案也是围绕向外扩展存储而设计的。不过它们基本上可以将数据分布到不同的块中。它们针对的是在每个节点所分配的本地数据块 上由孤立的“映射的”任务来执行分析工作。这种批量类型的方式可以带来商品硬件架构,因为本地化的故障可以在扩大为集群故障之前被异步地重新处理掉并被“缩减”成可以被解决的问题。
不过,极限应用程序,包括许多机器学习和仿真算法,依赖于高水平的节点间通信和共享全局访问文件。这种同步式的集群处理要求高并行访问吞吐率、共享数据的低延迟率,以及企业级的数据保护和高可用性–和HDFS有很大不同。
极限性能的工业化
强大的超算并行文件系统崛起于学术和研究领域,并已经准备好部署在商业的企业数据中心。现在已经有一些基于开源Lustre的商业化的Linux中心并行文件系统(比如带来DDN和Terascala的系统)用于基于Linux的集群计算。同时,为了让IT企业采纳支持多操作系统和企业级数据保护的极限应用程序,我们看到GPFS(IBM的通用并行文件系统)在设定标准。
并行文件系统可以在多种类型的存储节点上部署,从自己开发的集群到完整的设备都可以。比如,DDN已经工业化了多个并行文件系统以便在企业市场上承载极限应用程序。他们的GRIDScaler解决方案整合并利用了在他们的专业HPC存储硬件上的并行文件服务。这种类型的整合的“设备”解决方案可以带来方便的管理、优化的性能、减少的复杂性和完整的系统支持,从而为企业带来更低的总拥有成本。
极度迫切
新的数据密集型解决方案使得企业可以探索分析大量的数据来挖掘新形式的知识和情报。这些新的极限应用程序可以创造出改变整合市场的新收入流。
大数据分析是极限应用程序的一种类型,不过从以新方式处理大量新数据的角度看,这只是冰山的一角。需要并行文件访问、高吞吐率、低延迟率和高可用性的新应用程序也在不断增加,而越来越多的企业(以及服务提供商)将需要部署和支持它们。
幸运的是,在并行文件系统等技术的工业化潮流之下,IT部门可以利用厂商的这种趋势来支持这些具有挑战性的极限应用程序。技术上的借口正在消失,而竞争正在白热化–所有企业都应该加紧部署自己的极限应用程序。
如果你在IT部门工作同时还没被要求支持极限应用程序,你应该做好迎接它的准备。