不可否认我们已经身处大数据洪流中,无时不刻的体验着大数据带来的价值。面对大数据洪流,数据中心已经迫在眉睫的需要变革,数据中心的基石IT基础架构也需要转变。近日LSI存储解决方案部执行副总裁Phil Brace来华接受了记者的采访 ,Phil Brace是LSI公司存储解决方案部门的执行副总裁,之前负责所有针对硬盘驱动、企业级磁带市场以及SSD市场的芯片解决方案。目前主要负责LSI企业级以及客户端存储业务,包括硬盘SoC 和前置放大器、RAID芯片和控制卡、SAS存储控制器和闪存存储处理器业务。Phil Brace结合LSI的产品阐述了自己对于大数据洪流下,数据中心变革的理解。
LSI存储解决方案部执行副总裁Phil Brace
大数据时代机遇与挑战
移动互联时代,我们每时每刻感受着数据量的冲击,当前每一分钟就有2.4亿封邮件被收发,同时也会有长达几十万分钟的视频在网络上流通。而且数据的增长不会停止。大量的结构化数据以及非结构化数据改变这个世界以及我们的工作和生活。爆炸式的数据增长给IT基础设施带来机遇与挑战。如何处理这些数据以及通过大数据分析为人类社会发展带来价值?数据中心IT基础架构面对大数据的技术挑战如何应对?都是值得人们去探讨。
Phil Brace举了两个现实中的例子,来展示一下有了大数据,并对大数据进行分析能够带来什么样切实的效果。
首先是通过大数据分析能实现对自然灾害的快速响应,2012年10月飓风Sandy使得美国东海岸24个州受到影响,如果没有超级计算机对于大数据的分析,此次灾害影响会大很多。通过超级计算机对成千上万个数据源分析,做了一个23小时多达760 Data sources的分析,每一天都会做这样的仿真模拟的分析,每小时采集的数据量是1TB。预测实时的风速、水的温度,为飓风周边30英里内造成的影响提供预测,帮助政府可以及时在飓风降临之前,做好人员撤离灾区,对灾难进行应对,准确的数据和实时应急响应挽救了更多的生命。
其次是对数据分析掀起医疗革命,大家知道人类基因组图谱的绘制对于医学来说是伟大的一件事情。从2000年开始一直到2013年,总计投入了数以十亿美金的投资,来做人类基因图谱的解析。但是现在,过去需要13年完成的基因组工作,现在在一个月内就可以做完。可以想象一下,一个基因是0.5TB的数据量,有几万个基因要去分析,有几十亿个病人要分析不同的基因,所以单指在医药一个领域,大数据就可以为我们提供巨大的价值。
其实还有很多领域,比如智能的能源、交通、视频监控等等,有很多应用案例。比如只是在伦敦一个城市,就安装了500万个摄像头。所以大家就可以看到大数据的意义何在。
大数据推动计算架构转型为数据流架构
LSI 存储解决方案部执行副总裁 Phil Brace媒体圆桌采访
通过案例我们可以总结大数据具有三个特性,多元、海量、高速。多元是在数据源的来源可以来自各个方面。手机、记录、结构化、非结构化等等成千上万的数据源。海量是指大数据当然是指海量的数据,我们估计在2012年的数据总量达到2.8ZB。到2020年,预测是有40ZB的数据量产生,也就意味着在这段时间里会有一个数据20倍的增加量。高速是我们每一分钟每一小时都会面临非常多的数据涌入。总之一切都需要我们在多元、高速、海量的数据中分析提取出真正有价值的数据。
如何提取有价值的数据?分三步骤,首先是从不同的数据源采集各种数据(需要计算能力创新),其次需要保存这些数据(需要存储能力的创新),最后需要对数据进行分析(需要软硬件结合快速融合的解决方案)。因此需要对现有的工具、产业环境以及基础架构进行创新。“第一是我们要有工具,工具就是像Hadoop这样的一些框架协议,它能够分析大型的数据。第二是需要开放的生态系统,比如说像Openstack,及其它的开源项目。第三是IT基础设施,我们需要硬件软件的结合去处理大数据。”Phil Brace讲到。
可以看出,贯穿云的大数据,整个IT架构从“计算”架构转型为“数据流”架构。企业将面对更多更复杂的数据传输、共享和存储的压力。对于IT基础架构及解决方案带来了全新的课题。
顺应大数据 LSI不断技术创新
知道如何提取有价值的数据步骤之后,通过怎样的技术实现数据采集、存储以及分析?LSI提供的产品和技术示范满足数据中心基础架构规模及经济性?Phil Brace 全面介绍了LSI全面的产品与技术。Phil Brace认为当前面临的不再简单的是一个计算的系统,而是一个数据流的系统。
如何更好的去采集、存储以及分析数据,首先介绍第一个领域,数据的采集。我们面临着各种各样的数据源,面对丰富的资源类型和数据格式,各种服务和计费要求。需要保证服务质量与安全。“无线基站里面有一个器件是多核的处理器,正是因为有这样的处理器,它能够以线速动态的捕获整个网络流量的情况,知道现在进来的流量优先级别是如何的。”Phil Brace讲到。LSI提供的异构多核处理器Axxia以及可定制化芯片为数据采集提供充足的引擎。
LSI提供怎么的存储产品?从采集再到保留数据,也就是存储的部分。在整个架构中,我们要去存储、保留数据,要求就是你的容量必须是可扩展的、利用率要高、高可用性、保证数据的完整性,核心的挑战是什么呢?就是它的复原力,要有非常低的宕机时间(故障时间少),低成本条件下的高可用性性以及低错误率。Phil Brace重点介绍了如何解决闪存存储面临的复原力的挑战。他谈了LSI最新的技术亮点。
第一,LSI支持东芝19nm闪存,LSI SandForce SF-2000闪存控制器现已支持东芝第二代先进19nm NAND闪存存储器,使SSD制造商能够制造出成本更低的SSD产品。每Gb的Flash成本降低了,单位存储数量更高了。这样就面临一个重要的技术问题,因为Flash越做越小,它可以用来存储电流的电子数量也越来越小了,所以导致它的错误率提高。
为了解决闪存错误率高的现象,LSI创新了新技术LSI SHIELD技术。这是一种高级的纠错方法,即便同时使用出错率较高的廉价闪存存储器也能实现企业级的SSD耐久度和数据完整性。为了让大众通俗易懂,Phil Brace比喻:假设你在跟我用英文进行对话,我的英文是有口音的,可能某一个单词你听不清楚到底我说的是什么,但是根据前后的单词你可以判断出这个词是什么,这就是SHIELD来做纠错的原理。”也就是通过分析错误码前后的数据高频率的实现闪存纠错。
关键是当我们面对闪存九千次/秒的编程擦写速度,BCH、LDPC因为错误码太多不能纠错,但是SHIELD的技术仍然没有问题。即使又提高了一倍,到一万八千次/秒读写的速度,这时候出现的错误点基本上已经没法纠错了,但是SHIELD仍然能够达成目标。
还有一个亮点是LSI的可扩展能力技术,针对典型数据库应用,通过LSI DVC(DuraWrite Virtual Capacity)功能,其规划出的虚拟容量可以达到原物理容量的三倍。可以理解为新增的虚拟容量可以显著降低用户每GB的用户存储成本。“这个压缩技术是软硬件结合的。其实我们看到其底层的技术,把它叫做动态压缩,指的是我们可以动态的改变页面的大小,比如一般来说有16K的大小,但有的时候它不是16K,可能要变得更小。所以这个时候我们就用软件来做这样一种映射,然后动态的调整页面的大小。”Phil Brace讲到。
接下来谈数据的分析。LSI提供服务器与存储连接解决方案以及PCIe闪存解决方案。数据的高速传输就是我们面临的挑战,即如何提高数据的效率,同时有高容量、高性能、低成本、低功耗。LSI方案采用6Gb/s驱动器获得12Gb/s的性能。LSI推出了Nytro新的产品系列,目的就是降低延迟,提高响应速度。
通过数据的采集、存储和分析,三个领域的深入分析,LSI不断解决解决用户在大数据方面的技术难点。最后Phil Brace讲到“我们现在已经从PC时代进入了移动计算的时代,未来的下一个时代是什么呢?就是以数据为中心的时代。而大数据三个特点,多元、高速、海量。以及未来基础设施有足够的规模以及经济性,这些因素推动移动计算的架构到数据流的架构的转换。为了顺应这种变化,LSI必须有智能的芯片解决方案,比如闪存、可共享的DAS的架构,以及异构的多核的处理器。为我们刚刚迈进全新的数据中心时代做准备。 ”