数据存储产业服务平台

智能超算,这个你听懂了吗?

“智能超算”,这是2017联想全球超算峰会的主题。但什么是智能超算呢?智能超算表达什么含义?从字面上看,“智能”应该指的是人工智能(AI);而超算就是高性能计算(HPC),但将AI和HPC组合在一起,要表达的是AI助力HPC研发?还是HPC助力AI呢?侧重不同,含义不同。

此外在本次主题峰会上,有关“大数据与精准医学”的主题演讲,也让我感觉迷惑不解。HPC、大数据、AI之间的关系是什么呢?

从AI说起

如果我们不纠缠于“智能超算”的概念,先看看AI带来了什么?

说到AI离不开AlphaGO。但从技术的角度说,真正带来突破的其实来自算法。联想集团副总裁、企业服务云计算研究室、无线研究实验室黄莹博士在演讲中指出:AlphaGO算法的创新可以分为离线训练和在线对弈。其中,离线训练表现为基于全局特征深度卷积网络的策略网络,它通过增强学习来优化和修正网络参数,用价值网络判断输赢的概率;至于在线部分,核心就在于蒙特卡洛算法。

不要被“深度卷积网络”、“策略网络”、“价值网络”、“神经元网络”、“蒙特卡洛算法”等专业辞汇吓到,说白了就是将算法应用到围棋对弈中,并取得了突破。其实类似的算法有很多,例如TensorFlow、Caffe、Torch、theano、mxnet等,差不多有20~30种公开算法。我们将“公开算法”用于有特点的数据,通过机器学习,我们来研究对结果产生影响的有哪些参数和变量,对于有经验的专业人员来说,可以洞察结果和变量的关系,从而寻求突破。

哪些算法究竟适合哪些类型应用?这并没有一个准确的答案,需要人工智能专家、分布式计算专家、网络和存储系统专家和应用专家的协同,寻求突破。AlphaGo的成功,就是算法、机器学习在围棋对弈上的突破,同时也为人工智能技术应用推开了新的一扇窗,将技术类推到业务应用创新中,有更多的神奇等待着缔造,这是一个契机。

所谓心动不如行动,我理解这就是“智能超算”要表达的含义。为了推动企业数据创新应用,超算平台是必不可少的基础设施。

以深腾8810集群为基础

深腾8810集群是联想自主研发的全新集群,配有HPC+AI智能超算平台LiCO,它也是联想为企业级用户推荐的人工智能应用的平台

联想数据中心集团HPC方案总监李炜表示:HPC和AI在技术需求特点上有很多相似之处,例如它们同样需要密集型计算的能力,同样需要处理超大的数据结合,同时也会利用到GPU、FPGA等加速计算的技术。其中,在与柯杰的对弈中,AlphaGO配有的TPU发挥了非常重要的作用。“凭借HPC领域丰富的经验积累,联想有能力引领AI技术的应用和发展。” 李炜说。

严格说来,联想深腾8810集群并不是一个产品,而是一个HPC解决方案。计算方面,深腾8810集群可以支持各种CPU、FPGA、GPU集成的节点,提供高密度、统一管理、集中部署、节能环保的计算节点,同时也特提供DSS存储、分布式存储的能力,提高数据开放性的同时,满足多样性和安全可靠的存储需求。此外,较之上一代产品,LiCO管理平台从2.0升级至3.1.1,增强了报警、监控、报表等功能,管理节点数据提升到1000个以上。如此,也就为AI应用提供了强大支撑平台。

“小到几十万人民币,大到几亿人民币,深腾8810集群提供弹性伸缩的能力。最简单的2U服务器、模块化服务器,到4U、8U、用户可以根据需要自由组合叠加。如此,最大程度上赋予了用户选择的灵活性。” 李炜说。

据了解,LiCO针对AI框架进行了集成和协调,以满足分布式训练的需要。用户可以通过图形化管理界面来管理AI工作流程,让创建、提交、监控和验证等AI作业操作更加直观、易于管理。

为了更好地支持企业级用户AI业务创新,联想将在美国莫里斯维尔、德国斯图加特和北京设立联想全球AI创新中心,为研究机构、技术以及生态系统合作伙伴提供基于ThinkSystem基础架构的支持服务。

在联想看来,行业、算法、数据和计算能力是企业级用户AI应用成功的4个要素。其中,以深度学习为代表的AI技术对计算和系统的专业要求,会加剧问题的复杂性。而计算、系统恰恰是联想最为擅长的,所以,AI和HPC的深度结合,会大大降低AI系统研发的复杂度。

HPC和大数据应用

熟悉HPC的人知道,Linkpack测试并不能够准确反映HPC实际应用能力。为此,以Linkpack测试为基础的HPC排行也倍受争议。分析其中的原因,Linkpack算法数据分布过于理想,和实际应用中数据获取方式差异比较大。所以,Top500排行只能够反映出HPC系统浮点运算的能力,但这种能力在实际应用中,受数据I/O的影响会打很多的折扣。

如今AI的应用,各种算法的深度机器学习恰恰可以发挥HPC的计算能力,这让HPC系统排行更加具有价值。以大量数据处理为基础、机器学习为数据分析,带来了更多的视角和可能,而这也是HPC和大数据的结合点。

对于大数据而言,很多时候会和Hadoop相提并论,强调贴近计算的数据分布式存储。相比于此,这里所强调的HPC和大数据结合,其实更加强调与HPC系统相结合的海量数据存储,其架构可以是DSS存储,也可以是分布式软件定义存储。HPC和大数据合二为一,这也是技术发展的趋势和方向,因为他们同样需要强大的计算和数据存储能力。

小结

HPC助力AI应用,这是完全可以预见到的未来。这也是为什么“智能超算”成为2017联想全球超算峰会主题的原因。对于AI来说, 4要素中的算法、数据和计算完全具备,所欠缺的就是与行业的结合。

对于行业来说,AI可以解决哪些行业的痛点和难题?其实答案就在于前瞻性的创新投入和实践,也许成功需要一点点幸运女神的眷顾,但是仍然离不开无数实践的基础,因为机会总是留给有准备的人。

未经允许不得转载:存储在线-存储专业媒体 » 智能超算,这个你听懂了吗?