IBM李剑:大数据时下下的数据分析
Hebrews 发表于:12年09月03日 13:45 [原创] 存储在线
IBM智慧存储蜂巢理论发布会于8月31日在上海召开,该IBM的最新战略,旨在为用户在大数据时代提高存储效率、部署存储虚拟化和适应信息模式的变化而做出的更细致、更全面、更适合的策略。IBM研究院大数据系统首席架构师李剑博士发表了精彩演讲。
李剑认为大数据时代中,数据不仅规模大,而且数据的来源多种多样,有结构化的,还有非结构化的,现在原始数据并不重要,关键是从大量的数据中挖掘有用的信息,让商务操作更加高效率是数据处理的关键,对存储的要求也要存储智能化。他表示其实很多的数据挖掘和商业智慧在传统方式上面已经有了,其实数据还有一些传统的已经开始做一些商业计算的东西,它们的问题第一只能接受结构化的数据,现在大量的数据反而是非结构化的,我们要用大数据来解决非结构化数据挖掘的问题。
李剑谈到了IBM三项比较核心的数据分析技术,即MapReduce、离线计算和在线的流计算。
MapReduce实际上就是把它分布到各个计算机上面,Reduce实际上是把最后的数据再减少,核心的就是所谓的MapReduce。这一技术是性能优化中的亮点。
离线计算方面,李剑提到大数据解决非结构化数据挖掘的问题。其实整个平台还是一个软件的构建方式,在硬件上面IBM不仅在X86上面,从整个系统集成都有大数据非常非常良好的集成,从硬件到数据信息的集成再到核心,一个是所谓的离线大数据深度的挖掘,用的是以开元系统为核心的产品。
之后李剑谈到了流计算的优点,他认为计算无非是三个,一个是计算一个是存储,还有计算和存储之间的交互。传统计算要把我的计算放到数据那里,流计算的好处,数据进来,直接进来,然后我做查询,所以它的速度非常快。另外流计算还有非常大的扩展性,还有很多功能,除此以外流计算还有非常强的IDE的支持,IBM有非常完善的系统,让很多都可以在流计算方面得到非常非常好的支持。