数据存储产业服务平台

大数据与机器学习融合?这是啥意思?

技术的发展让我们先后了解了大数据和机器学习,知道了Hadoop和AI 训练和预测,它们也有共同的特点,就是以海量数据为基础,可以说,没有数据就没有大数据和机器学习。

要用好大数据、机器学习并不容易,主要还是技术比较复杂,需要学习和掌握的软件工具非常多,要熟练运用谈何容易?另外,机器学习概念并不难理解,但是“结果二分法”的现象日益突出,也就是说,用户对数据的期望不断提高,但是对数据的信心,或者说训练的结果的信息不断下降。

为什么会有这样的问题呢?专业人士指出:问题出在数据加工和准备的环节,涉及到复杂的数据加工及处理,数据规模动态变化,以及优化数据质量。如何才能够改善并解决问题呢?

这就涉及到数据共享、权限管控、数据分析和智能应用等一系列的问题,这也是亚马逊云科技宣布推出“云、数、智三位一体”的大数据与机器学习融合服务组合的原因。

首先是构建云中统一的数据治理底座,从而打破大数据、机器学习应用中所存在的数据和技能孤岛的问题。这里亚马逊云科技提供的工具包括Amazon Lake Formation和Amazon SageMaker Studio等,其中,Amazon Lake Formation通过基于单元格的最细粒度的权限控制机制,确保企业核心数据能够被安全的使用,Amazon SageMaker Studio则可以一站式提供交互式查询服务Amazon Athena、云上大数据平台Amazon Elastic MapReduce (Amazon EMR)、云数据仓库服务Amazon Redshift、Amazon SageMaker机器学习等数据分析工具。

Amazon Athena能够对支持多种开源框架的大数据平台,包括Amazon EMR、高性能关系数据库Amazon Aurora、NoSQL数据库服务Amazon DynamoDB、Amazon Redshift等多种数据源,Amazon Athena可以对这些数据源进行联邦查询,从而有助于快速完成机器学习建模的数据加工。

以Amazon Redshift、Amazon Managed Streaming for Apache Kafka (Amazon MSK)和 Amazon EMR 为代表的无服务器分析能力,也为机器学习项目提供了兼具性能和成本效益的特征数据准备。

此外,需要我们关注到的是大多数的数据分析工具,如Amazon QuickSight、Amazon Athena、Amazon Redshift、Glue Databrew、以及零代码化的机器学习模型工具 Amazon SageMaker Canvas等,这些工具都深度集成了Amazon SageMaker机器学习模型预测能力,一方面提升数据分析的能力和准确性,另外一方面,也可以让用户熟悉和探索机器学习的建模过程和方法。

“云、数、智三位一体”服务组合亚马逊云科技继“智能湖仓”架构以后,持续推进该框架深度智能并加速其落地又一次升级和实践。

亚马逊云科技大中华区产品部总经理陈晓建表示:“随着企业数据越来越多,机器学习模型越来越先进,很多企业期望通过大数据与机器学习技术的融合,进一步带动业务创新,提升产出。但企业往往面临一个困境,有大量的数据和分析技术储备,也尝试了很多先进的机器学习模型,但就是很难有实际的业务产出。企业不能只靠机器学习,而应在云中打造统一的数据基础底座,实现大数据与机器学习的‘双剑合璧’。 在大数据与机器学习领域,亚马逊云科技提供广泛而深入的服务,既有能打通两个领域的数据治理底层服务,还能实现大数据与机器学习之间的相互赋能。

如今,全球已经有数十万客户借助亚马逊云科技大数据及机器学习服务开展业务创新。以乐我无限(Joyme)为例,他们运营的全球化直播平台LiveMe,荟萃了来自200多个国家和地区的近100万名主播,每月活跃用户数(MAU)超过3700万。通过直播内容实时识别技术服务,LiveMe不仅提升了用户体验,还大量降低了内容管理的业务成本。通过欺诈交易识别技术服务辅助识别欺诈交易,减少欺诈、拒付类交易,LiveMe每年减少经济损失可达数百万美元。

Joyme数据研发中心总监杨飞表示:“LiveMe基于亚马逊云科技的解决方案搭建了数据研发中心平台的核心技术服务。LiveMe核心业务均部署在亚马逊云科技上,通过亚马逊云科技的技术赋能,实现了降本增效,加速了业务创新。未来LiveMe将在系统稳定性、数据驱动以及新技术开发等方面加深与亚马逊云科技的合作。”

Convertlab 联合创始人兼CTO李征表示:“基于亚马逊云科技统一的数据基础底座, Convertlab构建了相辅相成的一体化数据智能湖仓架构Data Hub和一体化高效机器学习平台AI Hub,使数据流转时效性提升32%,可进行快速的特征设计与机器学习模型迭代,模型上线效率提升30%。当前已上线5大营销特征类别,300多营销特征,20多营销AI模型,更好地赋能客户智慧营销,实现业务增长,助推行业数字化转型。”

据了解,亚马逊云科技还通过数据科学实验室、机器学习实验室和机器学习专业服务等一系列定制化措施,从基础能力构建到行业前沿知识分享,帮助客户将“数据驱动转型”从设想到全面落地,重塑创新引擎。

未经允许不得转载:存储在线-存储专业媒体 » 大数据与机器学习融合?这是啥意思?