治理大数据第一步:行之有效的基础设施平台
DOIT原创 崔昊 发表于:12年09月10日 16:00 [原创] 存储在线
治理大数据第一步:行之有效的基础设施平台
“罗马不是一天建成的”大数据也不是一天、一周或是一个月就能够解决的问题,总的来说,解决大数据的问题是一个长期的过程,需要对大数据的发现、流动、存储、分析以及长期保存等各个方面加以考虑,这意味着从平台建设的角度来说,需要考虑的“完整的、适合整个大数据生命周期”的软硬件平台。
从上面的情况我们不难看出,对于物联网与移动终端——其实也适用于其他的行业应用——大数据需要一个统一、融合以及无缝衔接的,平台,企业需要无缝连接所有的数据,包括无线传感器、移动终端等等不同数据源的数据,从而让整个企业业务流程中的数据被统一存储和分析。
另一方面,既然是大数据,其对服务器与存储的性能压力自然也变得更大,企业需要性能更强劲的服务器以及更快速的存储系统,但与此同时,这并不意味着在大数据时代,我们能够放松对能耗与空间的重视,否则随着数据越来越“大”,难道我们必须无休止的去增加IT所需的电力和数据中心的空间?这显然是一个不能接受的命题。
我们需要这样的一个硬件平台:高性能、无缝扩展、低能耗、开放以及极高的性价比优势——这正是IA架构在过去三十年不断给与业界的“礼物”:以英特尔为代表的x86(IA)架构平台,已经洞察到了上述大数据来临和发展的趋势,并为此作好了充分的准备。
IA架构的计算能力自不必说——高性能意味着物流企业更快的制定运输线路和更快速的运输速度。
以英特尔至强E5系列处理器为例,其性能在每一代产品上,都能够得到高达80%的提升,其性能水准在全球高性能计算500强中得到充分的体现。而在提供如此高的性能的同时,至强E5处理器的能耗却有50%的降低,这使得企业在建立规模化的大数据处理平台——往往是上百台的服务器——时,可以在数据中心原有的电力供应下,提高超过一倍的计算能力。
对于大数据分析这一处理器密集型应用来说,英特尔的超线程技术可以极大的提高系统性能。
而对于更为重要的无缝扩展,IA架构的高可扩展性也早已被业界证实。事实上,正是IA架构的高可扩展性,业界最著名的Hadoop大数据平台才会以IA架构为基础,提出以IA架构为硬件基础的大数据软硬件推荐模板。
无论是中心还是边缘,只有IA架构能够实现最佳的大数据平台连续性
从另一个角度来看,IA架构无缝、高效的扩展能力,能够让企业在不断增长的大数据分析负载面前,有效的扩展计算平台——请记住,因为英特尔E5处理器超过上一代50%的能耗降低与80%的性能提升——这不仅意味着性能的巨大提升,还意味着能耗水平甚至有可能会降低。
当然,从存储平台上看,我们会看到相同的事情在发生。现在,几乎所有主流的企业存储系统都是以英特尔x86处理器为核心的,各家主流供应商也都采用了英特尔推荐的整体IA架构设计中端甚至高端的存储系统,这让英特尔x86平台获得“无可比拟”的优势:当你的数据中心的服务器、存储都以英特尔x86平台为核心,以英特尔的推荐架构为平台设计,这也就意味着你将获得一个融合、统一以及更高性价比的数据中心。这显然是应对大数据,甚至是云计算时代,最有力的优势。
值得一提的是,对于商业智能来说,基于英特尔至强处理器的多路平台还具备高性能、高能效、灵活扩展以及高性价比等优势——从双路到四路、多路,英特尔为商业智能提供高度适合的计算平台。
但硬件只是基础,软件才是上层建筑,对于业界主流的大数据平台Hadoop来说,仅有英特尔至强处理器平台显然是不够的,但对于企业来说,对攸关企业发展的大数据问题来说,一个开源的、无支持与服务的原生版本的Hadoop平台,显然不是一个好主意。更何况,国内的Hadoop人才尤其是底层开发人才目前还处于空档期。