6月25日,OCP China Day(开放计算中国日)在北京举行,大会由OCP基金会和OCP铂金成员浪潮联合主办近千名工程师和数据中心从业者参加了此次大会。开放计算已经席卷了全球超大规模和大规模数据中心,作为全球规模最大的开放计算社区,OCP正致力于构建下一代数据中心技术生态,以满足未来边缘计算、云和AI的应用需求。此次活动,来自Facebook、LinkedIn、Intel、微软、百度、腾讯、阿里、诺基亚、中国移动、浪潮等资深技术专家进行了主题演讲,分享了在下一代整机柜服务器、边缘计算、AI、开放网络等前沿领域的标准进展情况。
OCP China Day 开放计算中国日
OCP在2011年由Facebook发起成立,核心会员超过200家,包括Google、微软、Intel、IBM等,超过7000家企业参与了社区的活动,2018年,OCP非董事会成员采购额同比增长率超过120%,达到25.6亿美元,到2022年预计将超过107亿美元。
OCP CTO Bill Carter
AI、5G时代下的数据中心挑战
5G时代是强互联时代,据估计到2023年全球将有超过350亿台终端接入网络。5G的应用将给数据中心带来新的发展契机,也会对现有技术带来挑战。一方面更大规模的连接以及海量数据将推动云数据中心规模和设备密度的进一步加剧,另一方面,AI、视频等新兴应用普及很快,数据中心负载越来越多样和复杂,硬件在提高密度的同时还需要具备更大的灵活性。同时,5G时代将开启边缘计算的时代,各类边缘数据中心将大量出现,与大规模云数据中心一起成为重要社会基础设施。
下一代开放整机柜服务器标准Open Rack 3.0
截止至2019年1月,全球超大规模数据中心的数量已经达到430个,可容纳的服务器总量相当于全球服务器3年的总销量,这些数据中心一直不断提高数据中心的设备部署密度和性能密度。
此前,浪潮与Intel联合向OCP社区提交了一项2U4路服务器全球参考设计Crane Mountain(浪潮服务器NF8260M5),该方案相比传统的2路服务器能够减少跨节点通信,在单位空间内可以部署更多的虚拟机。
OCP在鼓励社区成员产品创新的同时,也在开发新的数据中心标准。大会上OCP机架和电源项目组负责人Steve Mills系统的讲解最新的Open Rack 3.0整机柜服务器规范。Open Rack是OCP社区最具有影响力的标准项目,当前的Open Rack 2.0已经被众多的互联网企业和电信运营商企业所采用,但是Open Rack2.0在进一步提高性能密度时,在供电和散热方面遇到了难以克服的物理限制,因此OCP开发了Open Rack 3.0,相比上一个版本,新版本增加了液冷散热,整机柜功率提高到15-33KW,增加了48V直流供电,能效进一步提高,另外,高度从41OU增加到44OU,提高了空间利用率,并且调整了内部结构,为I/O、存储等单项功能的扩展预留了空间,目前该标准仍未正式发布,处于公开征询意见的阶段。
让边缘计算开放在起点
5G时代,运营商将在靠近用户的网络边缘侧构建业务平台,将部分关键业务应用下沉到网络边缘,以减少网络传输和多级转发带来的带宽与延时损耗。
中国移动研究院电信云交付技术中心主任唐华斌说,传统的服务器就像温室里的花朵,难以直接部署在边缘数据中心,中国移动的多级边缘机房总数达到数百万个,包括地市机房、区县机房、汇聚机房、基站等,边缘服务器需要耐受更严酷的物理环境,同时也需要具备更好的并发承载能力。
OCP社区在电信项目组设立了Open Edge技术小组,希望为边缘计算服务器等硬件设施开发一套公开标准,小组leader成员诺基亚已贡献了 Open Edge Chassis Specification v1.2标准,在大会演讲中,诺基亚硬件架构部门负责人Tomi Männikkö说,该标准以3U高度、19英寸宽度和430mm深度的机箱为基本部署单元,机箱可以支持高度为1U和2U的扩展节点,每个节点的宽度可以为半宽、1/4宽和全宽,机箱最大供电功率2000W,支持AC和DC两种供电模式,可以兼容边缘计算、远端边缘计算等各类部署环境。
浪潮也展示了两款边缘计算服务器,两款产品为2U双路服务器,深度430mm,宽温宽湿,耐腐蚀,并且可以支持GPU、NVM-e等,针对电信应用进行了NUMA Balance优化。
OAI,缩短异构加速计算技术到应用的时间
AI的飞速发展推动了一系列面向深度学习、机器学习以及高性能计算等应用的异构加速方案的发展,加速器硬件系统的技术挑战和设计复杂性很大,将加速器集成到系统中通常需要大约6-12个月,较长的开发周期阻碍了新的AI加速器的快速采用。
不同异构方案的需求是相同的,包括供/制冷、弹性、可用性、可管理性、内部I/O交互和外部可扩展的I/O链路等。OCP社区在服务器项目组下设立了OAI(Open Accelerator Infrastructure)小组,负责开发OAM(OCP Accelerator Module)规范,将加速器模块标准化,简化AI基础架构的设计,缩短硬件设计周期。OAI项目负责人表示,企业开发一个AI方案很容易,也很快,但是要单独发展一个生态,却很困难,加入OCP会是一个好的选择。
浪潮高级技术总监 郭洪昌
腾讯和浪潮在大会上宣布将T-Flex2.0规范贡献给OCP社区,该规范并不仅着眼于异构加速的规范设计,而是基于I/O池化技术,通过服务器不同模块的解耦重组,实现服务器的模块化迭代和灵活组合,用户可以基于该规范,可以实现异构加速、冷存储、HPC集群等各类不同的应用方案。
OpenRMC,统一开放的数据中心管理架构
OCP正在构建下一代数据中心管理架构,社区的Open Firmware项目组的宗旨是发展敏捷、开放、标准的固件设计规范来适应新一代云计算基础架构发展需求。项目组正在开发开源套件,这些套件仅包括最基本的平台代码来识别白盒硬件,同时用Intel® FSP发展可构建和引导的白盒硬件系统,形成软硬一体化的Open Firmware生态。
社区的另一个项目组OpenRMC,正在致力于OpenBMC与Redfish的融合,形成下一代数据中心管理的统一框架,该项目由浪潮牵头成立。OpenBMC是Linux社区项目,意在解决闭源的BMC以及相关的软件包标准不一的问题。Redfish是替代IPMI的下一代数据中心管理规范。OpenRMC项目希望能够解决两个标准之间的互操作性等一系列问题,并建立协同机制,形成规范,推进下一代数据中心管理技术和产业的发展。
OpenRMC 与Open Firmware将为下一代数据中心构筑起开放、标准、灵活的统一管理技术生态。
不同社区间的开放融合加速
在OpenRMC、Open Firmware等项目需要的带动下,OCP与Linux、OpenStack、DMTF的合作日益紧密,不仅如此,OCP与中国ODCC开放计算社区的合作也不断扩大。
大会上,阿里巴巴分享了SONiC技术的应用成果,而SONiC是微软发起的开放网络交换机操作系统,ODCC社区成立了凤凰项目,将SONiC引入了中国,推动了云数据中心网络架构的革新。
各个开放计算社区的融合正在不断加速,2014年,微软加入了OCP社区,OCS和Olympus成为OCP社区规范,2018年,LinkedIn加入OCP社区,Open19规范被OCP社区所接受。中国的ODCC开放社区仍保持独立发展,但是ODCC与OCP社区的合作越来越广泛和深入,与凤凰类似的项目还有很多,两个社区成员之间的合作是OCP和ODCC融合的主要推动力。
比较而言,ODCC体现了中国数据中心用户的需求,OCP更多体现了美国数据用户的需求,两个社区的技术规范的策略和技术细节有所出入,但是整体差别不大,随着交流与融合的加剧,两个社区有望在具体技术规范方面求同存异,发展适用性更广泛的各类数据中心开放标准。