数据存储产业服务平台

后摩智能异军突起,用存算一体解锁超大算力

算力是国际间战略级别的竞争,代表智能水平的指标是TOPS,接近通用人工智能水平的数值是约为5000TOPS。英伟达从2018年1TOPS的Parker发展到今天已经254TOPS的Orin,2024年推出的下一代芯片将会达到单芯片1000TPOS。如果算力不在一个维度上,竞争力也不会在一个维度上。

算力正在快速增长,面对这个拥有万亿级规模的广阔市场,后摩智能也提出了同样的目标——单芯片1000TOPS。

为什么要涉足存算一体?后摩智能的信心从何而来?2021年7月30日下午,后摩智能联合创始人、战略副总裁项之初在杭州国际博览中心举办的2021全球闪存峰会上举办的“存算一体化”分论坛进行了阐述。

存算一体及其优势

存算一体技术是最近几年重新走进大众视野的一种新的架构。据项之初介绍,存算一体及其优势在于以下三个方面:

一是用存算一体做大算力芯片更可行。首先,在传统冯·诺伊曼架构下,计算和存储分离,设计芯片需要更多考虑总线连接等复杂的工程问题,工程优化消耗大量人力和时间。存算一体技术采用非冯·诺伊曼架构,计算单元和存储单元完全融合,提升算力只需要复制“存算一体单元”,工程上更简洁。其次,传统架构下因为数据从DRAM中读取很慢,计算单元通常要等待,实际算力远低于标定的理论算力。存算一体架构减少了等待数据时算力的浪费,实际性能更好。

二是用存算一体实现高能效比更可持续。存算一体在存储单元内完成运算,有效的解决了困扰业界许久的“存储墙”问题,减少数据搬运过程中高达90%的功耗消费,提升计算能效比。在泛人工智能时代,地球将无法承受今天芯片的能量消耗。有数据预测,全球数据中心2025年的耗电量将达到总耗电量20%,而L5级无人驾驶所需的4000 TPOS算力水平,一年需要3万多亿度电,占全球发电量12%。再比如AlphaGo下棋打败了人类,但人类只用了20瓦的大脑能耗,而AlphaGo是2万瓦,如果更多的脑力劳动被机器取代,芯片散发的热量会让地球变得滚烫。所以只有低功耗基础上的大算力才是可持续的,这也是国际国内共同关注的话题。

三是用存算一体降低延时更安全。存算一体减少了数据迁移和计算单元无效的等待时间,降低了延时,在自动驾驶赛道,低延时可能意味着挽回生命。

存算一体能突破算力瓶颈,实现能效比数十倍提升 

现有AI芯片由于冯·诺依曼架构而导致性能瓶颈凸显,算力提升有限,同时AI属于数据密集型计算应用,大量的数据搬运导致功耗居高不下。“芯片大算力和低功耗”是人工智能场景必须解决的刚性需求。

存内计算能效比理论上能有2-3个数量级(超过100倍)的提升。原因在于计算单元和存储单元融合,可以节约90%的性能功耗消费。原来的冯诺伊曼架构已经不适合于AI时代。企业都在探索打破存储墙的限制,让能效比实现极大的提升。

存算一体这样一个新的架构当然面临很多的挑战。冯诺伊曼架构下传统的存储器层次机构(Memory Hierarchy),从SSD,DRAM,到片上L2、L1的cache,以及常规的编译器方式,都要推翻重新思考;从芯片的工艺器件,到电路设计,到架构设计,再到编译器,都要重新设计。

存算一体芯片在国外也有一些先例,如GraphCore公司的近存计算IPU已经有小批量量产,以1000T算力主打云端训练场景并落地于微软Azure、宝马等用户,估值已经接近30亿美元;Mythic公司采用模拟数字混合存内计算,云端和边缘端推理,接近独角兽估值;三星正在做HBM-CIM、Apple和华为也开始在尝试。

掘金大算力芯片市场

项之初认为,存算一体大算力芯片潜在的市场有两个:边缘端的推理和云端推理市场。

据统计,2020年全年的快递总量为740亿单,平均每天约有2亿单,而外卖市场也保持巨大的增长。这意味着极大的人力缺口,在中国老龄化问题日趋严重的今天,用机器替代增量的市场,是一个有效的对策。未来很可能是机器和机器的协作把一个快递和外卖送到客户手里。

一个外卖或者快递下单之后,商家或餐馆配送到商场或住宅的无人车,再转送到社区家中或者交给机器。这一切都需要算力,但它们的智能化需求在当前几十TPOS的情况下是远远不够的。因为,它要走上公开和非公开的道路,熟悉商场、街道之外的小区、柜台、大门等各种各样的场景,应对的数据维度甚至超过了乘用车。这些设备的制造商对未来算力的规划已经提升到500T、1000T甚至更高。

在云端推理市场,互联网大厂对成本并不过分敏感,但对于解决痛点问题非常关注,比如广告推荐得更准,可以增加一点成本,但是对产生的额外利润来说微不足道。

此外,数据中心电耗是一个很大的问题。如果数据中心规模倍数增加,功耗也会直线上升,而数据中心都有电力承载的上限。

后摩智能联合创始人、战略副总裁项之初

看得出来,无论是边缘端还是云端推理市场,它们共同的痛点都是算力和功耗。如果芯片可以做到大的算力和更低的功耗,那就是极好的替代解决方案。比如在数据中心,如果功耗降到1/10,可以多插数倍的卡,那数据中心的计算密度就会成倍增加;比如在无人车和机器人领域,大算力的芯片可以提升无人车和机器人的智能化,芯片的高能效比可以降低成本,提升安全性,这正是存算一体的芯片竞争力。

可以说,AI时代为很多中国公司用另外一种方式超越国际领先水平提供了机会。

集结最具潜力的存算一体专家团队,后摩智能志在用无限算力去改变世界

后摩智能是国内首家基于存算一体技术的大算力智能计算芯片公司,公司成立于2020年底,在上海、北京分别成立了研究中心,公司年轻但实力强大。其研发能力覆盖从存算一体底层的架构层、器件层及电路层,核心团队来自AMD、海思等知名企业以及普林斯顿大学、清华大学等国际知名高校,有近20年芯片设计经验,团队成员曾负责过0.18μm和6nm芯片研发和量产。

后摩智能联合创始人、战略副总裁项之初(左二)

后摩智能已获得数千万美元天使轮融资,由红杉资本、经纬中国等投资。

大算力的智能计算芯片是国家战略级的“军备竞赛”和人工智能的底层基础。强大的技术实力,在雄厚资本的支持下,后摩智能的理想正在逐渐成为现实。

未经允许不得转载:存储在线-存储专业媒体 » 后摩智能异军突起,用存算一体解锁超大算力