SAS:多年分析经验让Hadoop更加强大
袁绍龙 发表于:14年04月23日 15:59 [原创] 存储在线
云计算、移动化、社交网络、大数据被公认为四大趋势,大数据则以挖掘数据中所蕴含的价值被大量用户所关注,随着大数据生态圈的形成和稳步发展,Hadoop已经成为大数据重要的平台。近日,在2014 SAS中国区用户大会上,SAS公司高层表示SAS希望利用多年在数据分析方面的经验让Hadoop集群平台更加强大。
Hadoop 2.0版本在去年推出之后,最重要的变化就是将被人所诟病的Mapreduce框架升级为Apache YARN框架,大大扩展了Hadoop中应用软件种类和应用程度。SAS公司作为商业分析软件领域的重要厂商,在2014年年初也推出了适用于Hadoop架构的SAS内存分析技术(SAS IN-Memory Statistics For Hadoop),SAS公司表示该技术可以让多用户同时交互地管理、挖掘和分析数据,建立和对比模型,以及对Hadoop框架内的海量数据进行评分。
图一:大数据生态系统中Hadoop占据重要作用,基于Hadoop平台上新的分析模式让用户有更多选择,SAS近来也加入到对Hadoop平台的支持。
SAS公司大数据研究与发展全球副总裁Paul Kent表示:“多亏Hadoop这个开源系统和开源框架使得过去只有超级计算机才能运行的运算可以由多台计算机同时处理。Hadoop现在正在慢慢成长为一个分析平台,能够让其他种类的软件也融入和整合进来,SAS公司现在也可以参与到这个平台之中,把它变得更加容易使用。SAS公司拥有40年的专业数据分析经验,能够让整个Hadoop框架和集群变得更好。”
图二:SAS公司大数据研究与发展全球副总裁Paul Kent。
目前,在Hadoop平台上的基于内存计算框架和分析模式有多重,有现在非常火爆的Spark/Shark、GreenPlum GenFire等等,Hadoop走向平台化的趋势就使得平台上层的分析框架和模式更加多元化,也让用户的选择更加灵活。“对于SAS而言,最大的优势就是集群环境下的运算和算法,这是SAS的核心竞争力所在,SAS是第一家把大量且复杂的精密运算应用到Hadoop集群的公司,用户现在通过软件就可以非常轻易的做过去只有数据科学家才能做的事情,比如建立很好的模型或对未来进行预测等。”Paul Kent表示。
据悉,SAS In-Memory Statistics For Hadoop内存计算技术支持的统计和机器学习剑魔技术包括:聚类、递归、广义线性模型、方差分析、决策树、随机决策森林、文本分析和推荐系统。SAS可视化分析(SAS Visual Analytics)采用的内存分析技术也被应用到SAS In-Memory Statistics For Hadoop中。Paul Kent表示:“技术是非常重要的引擎,能够处理更大集群的处理,更快地得出结果。同时,SAS也非常关注用户界面友好,让用户使用方面。”
根据消息显示,SAS公司目前已经与Hadoop生态系统中的Cloudera和Hortonworks进行战略合作。
SAS公司大中华区总裁吴辅世也表示:“目前国内很多企业都做了Hadoop相关研究,在2,3年前很多企业仍然比较保守,现在包括电信行业、零售行业甚至一些金融行业用户都对Hadoop技术进行了很多试点、测试和研究。过去传统的主机和大型数据仓库平台做的工作现在逐步迁移到Hadoop平台之中。”
图三:SAS公司大中华区总裁吴辅世。
“现在对SAS公司而言是一个新的契机,过去SAS公司和Teradata、甲骨文等公司有很多合作,不管是直接访问数据仓库还是在库内做高速分析,都有各种软件功能满足用户需求。现在Hadoop平台的成熟,会让用户有更快速的部署、更精简的投资,并且能从中获得效益。”吴辅世补充道。
最后,吴辅世表示SAS公司对大数据趋势发展以及中国大数据市场的潜力非常有信心,未来会与国内合作伙伴继续把服务做的更好,让国内大数据市场发展更大。