2021年12月21日,2021阿里云弹性计算年度峰会在线上举行。阿里巴巴集团研究员、阿里云弹性计算产品线负责人、阿里云无影产品线负责人张献涛以《新算力、新业态,与客户共同创新》为题,发表主旨演讲,回顾了最近一年多以来的创新和服务所取得的成绩。
以下内容根据速记整理,未经演讲者审定。
与客户共同进步
迄今为止,阿里云已经在全球25个地域部署了80多个大型云数据中心,服务了超过300万用户,行业总数超过200个。在这个过程中,阿里云积累了大量有意义和价值的客户案例。
1.云上奥运会
由于新冠疫情的影响,东京奥运会推迟到了2021年,阿里巴巴作为奥委会全球顶级合作伙伴全程参与其中。本次奥运会最大的一个亮点就是“云上奥运”。
阿里云弹性计算产品为全球奥运盛会直播提供了超强的算力支持:转播时长超过9500个小时,官网APP的访问人数超过了1.75亿。由于数字化程度的提升,转播中心面积减少了25%,现场工作人员数量缩减了27%,可以说,这次由阿里云技术支持的“云上奥运”完美收官。
奥委会主席巴赫的所言是对阿里云最高的肯定:“今年奥运会是数字化程度最为高的一届奥运会。”
2.应对恶劣天气
南方电网是中国比较知名的电网公司,为广东、广西、云南、贵州以及海南、香港、澳门提供电力服务。恶劣天气对电力的影响是巨大的。阿里云和南方电网合作推出了国内首个神龙云超算平台,大幅提升了天气预报的精细化水平以及预测台风的精准度。今年的第七号台风袭来时,神龙超算云超算平台以超出普通的云服务器5倍的能力有效地支撑了南方电网在台风天的应急指挥:提前七天预测台风的动向、每秒钟浮点运算次数达到825万亿次、每30分钟输出一份详细的报告。
3.支持贫困地区教学
众所周知,云计算给人们的生活带来了很多的科技红利。如何让处于欠发达地区的中小学生也能够像大城市的青少年一样享受云计算带来的红利呢?
阿里巴巴集团CEO张勇在今年云栖大会上宣布了一个“少年云计划”,向欠发达地区捐赠1万个云电脑机房,助力改善欠发达地区中小学的科技教育随时随地用上最新的技术。“少年云计划”已经启动,阿里云也希望更多的合作伙伴参与进来,为欠发达地区的中小学教育添砖加瓦。
国际权威机构认可:计算能力卫冕全球第一
在过去的一年内,阿里云除了服务好客户以外也在苦练内功。
根据Gartner的最新评测,阿里云的计算产品在综合服务能力方面再次卫冕第一的宝座。这份报告整体的评测非常详尽,对于综合能力的评测相当到位。仅在计算这个领域就有272个评分项。在这次评测中,阿里云的计算再次拿到了第一,IaaS和PasS也获得了综合能力第三的好成绩。
阿里云的付出换来了更多客户的成功,自己也得到了快速成长。
当然,阿里云也不会止步于此,而是在更大的维度上做出创新,在技术方面做得更加深厚,在产品方面做得更加丰富,在服务方面做的更加智能,让智能化的服务变成主流。
在生态方面,阿里云也是追求更加的开放,与合作伙伴“共赢共生”。
持续推动技术的创新和升级
在技术方面,阿里云持续推动技术的创新和升级又取得了新的成果。
1.第四代神龙架构
阿里云发布了第四代神龙架构,也是最强的神龙DPU技术架构。
今年有一个非常热的投资浪潮,就是投资DPU。已经大规模应用并且性能指标最强的DPU,就是神龙DPU。这个DPU 2017年阿里云带领团队业界首创研发出的新的技术架构,引领了DPU技术发展的浪潮。
DPU是软件定义的技术架构,在云计算中用于数据的加速和服务质量的提升,同时又可以降低成本。在过去的四年里,阿里云作为DPU技术的发明者和领导者,发布总共发布了四代神龙架构,一代比一代的技术能力都要强。第四代神龙架构,提供了大规模的RDMA的组网能力。
传统的这种RDMA的能力组网基本上都是在千台规模就上线,神龙架构下的RDMA的能力其实可以做到数10万台的RDMA的规模。这样的能力可以大大加速云上业务的创新。
2.大规模分布式调度技术资源管控和调度系统
经过12年的开发和迭代,管理着数百万台的物理服务器,通过提供APP将底层的资源做到可编程化,满足客户的自动化和一些高级的需求。超大规模的智能故障预测系统,可以提前识别出来硬件的故障,利用神龙热迁移技术,可以让客户的业务在无感的情况下做到故障的提前规避,阿里云还具备业界最高稳定性,单实例可以做到99.975%的稳定性,一致性的体验,也方便了客户在云边端使用一套代码来进行集成,降低了整体的复杂度,方便业务的创新。
在资源调度方面,弹性其实是核心能力,每天都有数百万台的被创建和释放出来,满足客户的极致需求。
阿里云通过了IDC大规模的性能测试,也是唯一一个通过了信通院云平台大规模弹性性能测试的云服务厂商,可以在数分钟之内弹出几十万核的算力,在5秒之内交付3000个的容器实力,满足客户对于弹性资源的极致需求。
在计算领域,近年来最为亮眼的一个领域是AI。达摩院今年在11月份发布的训练模型参数已经达到了10万亿次。应对这样一个巨量模型,对算力提出了更高的这种需求。阿里云基于RDMA网络的800G GPU超算实例,不仅能够利用神龙架构的能力,更多的网络带宽让计算通信变得畅通无阻,分布式训练方面表现性能强劲。同时,通过AIACC飞天加速引擎的整体加速,整个集群的效能提升了9.75倍之多,不论什么样的规模,上十台也好数百台也罢,采用 fastGPU这种部署服务,通过API编程就可以把原来需要几个小时几天的部署个时间压缩到5分钟之内。
3.大规模弹性RDMA技术,为数据时代而生
RDMA是让云计算和传统IT产生本质区别的技术。
随着互联网数据量的增大,分布式计算的规模也越来越大,而大规模集群间的大量数据传输的开销其实也是非常大的,给CPU带来的负担也是随之加重的。阿里云在神龙架构的基础上创新性地提出了弹性RDMA网络传输技术,用户可以在使用RDMA技术的时候获得低延迟的体验,eRDMA可以把规模提升到数十万台,并且兼容RDMA相关的软件生态。这样一个新的通信方式大大加速大数据、AI、高性能计算甚至是一些数据库的应用:在机器学习场景中, AI训练能力有30%以上的提升,通用数据库场景中,性能有130%的提升,大数据的综合测试也表现出比传统传输高出30%的性能提升,工业仿真领域也会有20%以上的性能提升。
4.自研倚天710通用CPU芯片
随着云计算的不断发展,通用处理器的芯片会越来越多。
为了能够更进一步的提升客户价值,降低云产品的成本,在过去两年中,阿里云自研了倚天710芯片,基于该芯片的云服务器将在不久后即将面世,满足客户多样性的计算需求。
该产品的综合性能测试结果,和业界标杆相比,其SPEC int 2017性能有20%以上的提升,能效比也优于业界水平50%以上。
5. 无影的大规模商用
除了弹性计算之外,阿里云还发布了另一个战略级产品即无影的大规模商用。
无影作为一个端的算力的云化是一次成功的尝试。截至目前,阿里云已经服务了超过2万个客户,也让传统的办公、教育、个人娱乐这样的算力通过像无影进行云化,同时还引领了一批云计算公司参与的热潮。
无影云电脑是阿里云面向办公IT领域构建的一个全新物种,它利用了阿里云过去12年间在分布式计算、分布式存储和分布式网络的能力,满足客户全方位的需求,再通过云原生编程框架,让更多的软件企业能够做到云化转型的同时还可以提供自己软件产品或服务的更好的机制、体验。阿里云也跟很多的软件企业一起进行共创,在云电脑中让传统的软件变成云服务,并且取得比传统软件更加强大的用户体验。
6.面向未来为元宇宙及AI构建起新型算力的基础
最近一个词非常火,就是元宇宙。在新兴的数字孪生、元宇宙和AI领域,阿里云通过底层的产品和技术的创新,与广大的合作伙伴一起,提供一整套的端到端的算力解决方案:例如,清华大学能源与动力工程系联手阿里云合作伙伴,利用阿里云的云端视觉计算解决方案构建了一个虚拟仿真功课的实验教学平台。在这个平台上已经有16门课程、 32项实验项目,每年以超过22400个学时供700多名学生学习。
生态更开放:计算巢助力合作伙伴产品立体化上云
上云,非常关键的一个词就是开放。
在生态方面,阿里云今年构建了计算巢,作为在生态开放方面迈出的重要一步,希望借助阿里云十多年间积累的产品和技术方面的能力,让软件企业把产品更好的进行云化、变成软件服务,帮助伙伴更高效地服务客户,降低业务运营成本,实现更大的业务价值。
弹性计算四大能力全面服务客户
弹性计算不仅仅只是阿里云提供底层计算资源的一个产品,而是有着更多层次的能力,包括丰富的产品实例、多形态的部署方式,覆盖云上云下运维周期的套件,以及像无影云手机这些终端服务类一些新型的产品。
阿里云希望利用“深厚的技术、丰富的产品形态、智能的服务以及开放的生态”这四方面的能力,为客户提供全方位的计算服务保障,让客户的云上创新更加简单,更加高效。