英特尔高级首席工程师、大数据分析和人工智能创新院院长戴金权
9月19日,数交会首届全球数字经济大会在大连隆重召开,英特尔高级首席工程师、大数据分析和人工智能创新院院长戴金权发表主旨演讲。以下为演讲摘录(未经本人审定)。
我们已经进入大数据时代,统计显示50%的数据是近两年产生的,而不到2%的数据得到了真正的分析,大数据分析、人工智能在实际生产环境应用中还面临着非常多的挑战。
谷歌2015年发表的一篇论文很好阐述了这个问题。最中间有一个小黑框,是机器学习、深度学习或者人工智能的模型算法。今天我们在实验室里构建一个新的模型,或者在开源社区下载一个模型不是太困难,但是将构建出的模型很好应用到现实的工业级生产环境中,事实上有非常多的事情要做。这也是为什么英特尔致力于将人工智能和大数据分析处理的底层架构结合在一起。
BIGDL是我们2017年开源的一个项目,它是第一个在大数据平台上构建的分布式深度学习框架,目的是帮助用户在现有大数据平台上构建新的人工智能深度学习。人工智能社区有各种各样的技术和深度学习框架,同时大数据平台也是一个非常活跃的生态架构,如何将不同大数据处理分析或者人工智能技术有机整合在一起构成一个端到端的流水线,来解决用户的问题呢?事实上,这是应用落地的最大瓶颈。去年我们开源了ANALYTCSZOO大数据分析人工智能平台,帮助用户在现有大数据平台上,把各种AI技术统一到统一平台中。
数据科学家通常先构建一个原形,再进行各种优化提高准确度,然后将数据搬到生产环境中,这不是一个高效的过程,我们希望通过ANALYTCSZOO更方便地为客户构建原形,直接访问数据,无缝扩展到生产环境中,而不需要任何代码修改或数据拷贝。
将人工智能技术方便无缝地应用在大规模分布式大数据分析平台上是一个重要的技术创新,下面看看我们是如何与合作伙伴、用户一起来做这件事情的。
我们和微软云团队合作,他们的诉求是希望给用户提供更高效的客服系统,用户甚至可以通过微信公众号的界面,找到最对应的回答反馈。问题和回答做匹配,不仅通过关键字,也可以通过自然语言进行匹配。如果用户得到的回答不能解决问题,再转到人工服务。这一过程中我们通过文本分类自然云处理一些模型,嵌入到端到端流水线中,让人工智能更好地应用于客服系统中。
美的是一家大型工业机器人制造商,有非常多的产品需要进行检测。他们希望通过人工智能技术、计算机识别等进行自动检测。酷卡机器人接上一个摄像机,对流水线上的产品进行拍照,然后直接进行物体识别。整个过程需要完整的端到端服务,首先在云端要进行大规模训练和判断,同时在边缘端进行推理、实时识别。我们的合作得到了满意的模型,基于英特尔酷睿进行推理判断。
CERN是欧洲原子能机构,运营粒子对撞机,每秒产生1PB的数据因为无法存储都会直接扔掉,诉求是希望将其中有用的数据留下来进行数据分析。关键是如何构建一个过滤系统,将每秒对撞产生的1PB数据过滤后只剩下10GB非常有用的数据。我们和CERN合作,构建了一个端到端数据处理分析和深度学习流水线,运用大数据系统进行实时的流处理,从而将有用的研究数据保留下来。
当人们希望把人工智能、深度学习、机器学习的算法应用到现实生产环境中,会涉及如何进行大规模数据处理分析等各种问题,这是英特尔希望做的事情,也希望跟合作伙伴共同创新,更好地推动大数据分析和人工智能在实际生产中的落地,更好地对生产、生活进行改善。