Greenplum Chorus问世 EMC完善大数据三部曲
许振新 发表于:12年04月19日 06:00 [原创] 存储在线
Chorus的四张“面孔”
Chorus是EMC大数据三部曲第二阶段的“主角”。Chorus是由EMC中国卓越研发集团的技术工程师研发的,历时一年半时间。参与开发工作的EMC中国卓越研发集团Greenplum资深研发产品经理庄富任介绍了Chorus的四大功能——个人沙盒、数据发掘、协作分析和开放数据。
“Greenplum Chorus是数据科学的社交平台。”庄富任说,“它具有社交的、开放的、敏捷的特性。”
“个人沙盒”是指Chorus可以实现自我服务配置,它是弹性的,可以按需求扩展,同时能实现自动的数据导入。“个人沙盒”实则是用户独有的数据库,使用者可以在“沙盒”里做任何分析而不会影响到生产线里面的效能。“数据发掘”是对企业数据进行搜索,同时寻找数据的相互关联性,并对大数据集进行视觉化。 在这一功能里,Chorus对结构化和非结构化的数据都能进行搜索。
“协作分析”则是指员工间共享工作空间、代码,并发布和追踪得到的洞察。强调协作要灵活并兼具安全。“开放数据”指为分析提供整合的开发环境,通过对第三方数据的访问提供进一步的洞察,并与领先的分析和视觉化工具相衔接。
为了更好地进行数据挖掘和分析,EMC还引入了“数据科学家”这一概念。庄富任认为,“数据科学家”必须有数学背景,熟练掌握工具,同时熟悉企业业务,然后再对数据进行挖掘和分析。目前,EMC已经培养出了一些数据科学家,并在国外和一些大学合作,培养“数据科学家”人才。