一文看懂存算一体布局全景图:初创公司正另辟蹊径

摘要

2023 年,算力正被ChatGPT推上数字时代的宝座。

(图片来源:海洛)

文/Renee

编辑/孙越

2023 年,算力正被ChatGPT推上数字时代的宝座。

在今年第十七届中国 IDC 产业年度大典上, 各路大佬们都在围绕「算力」, 展开自己的畅想:

(何宝宏演讲内容 图源:IDC 产业年度大典演讲 PPT)

中国信通院云计算与大数据研究所所长何宝宏表示, 数字世界消耗最核心的能源是算力,算力是今天的「三次能源」。

称算力是「三次能源」, 一是因为算力是通过各种芯片、软件等数字技术, 从二次能源电力加工转换而来;二是因为, 算力与电力一样有着举足轻重的地位:电力网络是一个国家工业化的基础, 算力网络是一个国家数字化的基础。

各路大佬除了对算力提出畅想, 也给出了实际规划路线:在大会上, 商汤科技、鹏博士大数据、浩云长盛、超聚变、竹间智能等业内专业人士表示, 未来数据中心将分化成两种类型:追求极致算力的数据中心与产业赋能型的数据中心。

据介绍, 追求极致算力的数据中心旨在提供最大的计算能力, 以满足越来越庞大的 AI 模型的训练需求。这类数据中心主要关注计算能力和效率, 目标是实现极高的性能和运算速度, 通常会采用最先进的硬件设备, 如高性能处理器、GPU 和高速内存。

「极致」二字, 全然显示着,算力正成为「紧俏货」, 需要快马加鞭去布局。这, 也是目前的现状:除了「东数西算」工程的启动, 国家以及科技企业正加紧对液冷、水下数据中心、量子计算的实践与探索, 企图补上算力的「窟窿」。

而当前, 最热门的解决方案, 莫过于「存算一体」。

存算一体(Computing in Memory), 就是在存储器中嵌入计算能力, 以新的运算架构进行二维和三维矩阵乘法/加法运算。与以往的冯诺依曼架构相比, 其打破了由于计算单元与存储单元过于独立而导致的「存储墙」, 能够达到用更低功耗实现更高算力的效果。

自 2022 年开始, 芯片领域「天降紫微星」, 存算一体实打实地火了:

学界,ISSCC 上存算/近存算相关的文章数量迅速增加:从 20 年的 6 篇上涨到 23 年的 19 篇;其中数字存内计算, 从 21 年被首次提出后,22 年迅速增加到 4 篇。

产界, 巨头纷纷布局存算一体, 国内陆陆续也有近十几家初创公司押注该架构:

在特斯拉 2023 Investor Day 预告片末尾, 特斯拉的 do#xad;jo 超算中心和存算一体芯片相继亮相;

在更早之前, 三星、阿里达摩院包括 AMD 也早早布局并推出相关产品, 且「用过的都说好」:

阿里达摩院表示, 相比传统 CPU 计算系统, 存算一体芯片的性能提升 10 倍以上, 能效提升超过 300 倍;

三星表示, 与仅配备 HBM 的 GPU 加速器相比, 配备 HBM-PIM 的 GPU 加速器一年的能耗降低了约 2100GWh。

目前, 国内的亿铸科技、知存科技、苹芯科技、九天睿芯等十余家初创公司采用存算一体架构投注于 AI 算力, 其中亿铸科技专注 AI 大算力。

同时, 我们可以看到, 各个初创公司选择了不同的存储介质:RRAM、SRAM、闪存等, 且各家公司芯片适用的场景也有所区别。

本文, 偲睿洞察将梳理国内外已经入场的科技企业, 试图描绘一幅存算一体全景图。

01存算一体的「兄弟姐妹」

一时间, 学术界、产业界纷纷向存算一体抛去橄榄枝,而大家所青睐的存算一体, 大不相同。

学术界和产业界对存算一体的技术路径尚未形成统一的分类, 目前主流的划分方法是依照计算单元与存储单元的距离,将其大致分为近存计算(PNM)、存内处理 (PIM)、存内计算 (CIM)

近存计算(PNM)

近存计算, 本质上仍是存算分离架构, 计算操作仍由位于存储外部、独立的计算单元完成。只不过, 该构架能够通过存储上移或计算的方式, 让数据靠近计算单元, 从而缩小数据移动的延迟和功耗。

特斯拉、阿里达摩院、三星等大厂所选择的,便是近存计算

据 Dojo 项目负责人 Ganesh Venkataramanan 介绍, 特斯拉 Dojo(AI 训练计算机) 所用的 D1 芯片相比于业内其他芯片, 同成本下性能提升 4 倍, 同能耗下性能提高 1.3 倍, 占用空间节省 5 倍。

具体来说, 在 D1 训练模块方面, 每个 D1 训练模块由 5x5 的 D1 芯片阵列排布而成, 以二维 Mesh 结构互连。片上跨内核 SRAM 达到惊人的 11GB, 由于用上近存计算架构, 能效比为 0.6TFLOPS/W@BF16/CFP8。业内人士表示, 对于 CPU 架构来说, 这一能效比非常不错。

阿里达摩院在 2021 年发布采用混合键合 (Hybrid Bonding) 的 3D 堆叠技术——将计算芯片和存储芯片 face-to-face 地用特定金属材质和工艺进行互联。在实际推荐系统应用中,相比传统 CPU 计算系统,存算一体芯片的性能提升 10 倍以上, 能效提升超过 300 倍

三星基于存内处理架构, 发布存储器产品 HBM-PIM(严格意义上是 PNM)。三星表示该架构实现了更高性能与更低能耗:与其他没有 HBM-PIM 芯片的 GPU 加速器相比,HBM-PIM 芯片将 AMD GPU 加速卡的性能提高了一倍, 能耗平均降低了约 50%。与仅配备 HBM 的 GPU 加速器相比, 配备 HBM-PIM 的 GPU 加速器一年的能耗降低了约 2100GWh。

存内处理 (PIM)

存内处理, 本质上同样是存算分离, 不过相较于近存计算,「存」与「算」距离更近:独立的计算单元内嵌于存储芯片, 同样也是各干各的。

国内知存科技选择的便是存内处理:2022 年 3 月, 知存科技量产的基于 PIM 的 SoC 芯片 WTM2101 正式投入市场。距今未满 1 年,WTM2101 已成功在端侧实现商用, 提供语音、视频等 AI 处理方案并帮助产品实现 10 倍以上的能效提升。

存内计算 (CIM)

存内计算, 才是真正的、狭义的存算一体。在该框架下, 存储单元和计算单元完全融合, 没有独立的计算单元:直接在存储器颗粒上嵌入算法, 由存储器芯片内部的存储单元完成计算操作。

这, 也就是国内大部分初创公司所说的存算一体:

亿铸科技, 基于 CIM 框架、RRAM 存储介质的研发「全数字存算一体」大算力芯片, 通过减少数据搬运提高运算能效比, 同时利用数字存算一体方法保证运算精度, 适用于云端 AI 推理和边缘计算。智芯科微, 于 2022 年底推出业界首款基于 SRAM CIM 的边缘侧 AI 增强图像处理器。

并且存内计算, 正一步步提高声量:在 ISSCC 2023 的 34 个 session 中, 有 3 个 session 的标题都直接用到存内计算。

可以看到, 大公司与初创公司「自觉」分为两个阵营:特斯拉、三星、阿里巴巴等拥有丰富生态的大厂以及英特尔,IBM 等传统的芯片大厂, 几乎都在布局 PNM;而知存科技、亿铸科技、智芯科等初创公司, 在押注 PIM、CIM 等「存」与「算」更亲密的存算一体技术路线。

综合生态大厂思量的是,如何快速攻破算力和功耗的瓶颈, 让自己丰富的应用场景快速落地;芯片大厂们针对客户所提出的高效算力和低功耗需求, 开发出符合客户需求的技术。

也就是说, 大厂对存算一体架构提出的需求是「实用、落地快」, 而近存计算作为最接近工程落地的技术, 成为大厂们的首选。

而中国初创公司们, 由于成立时间较短、技术储备薄弱:缺乏先进 2.5D 和 3D 封装产能和技术,为打破美国的科技垄断, 中国初创企业聚焦的是无需考虑先进制程技术的 CIM。

02「新老」器件, 硝烟四起

从目前发展路径来看, 存算一体芯片正处于多种存储介质百花齐放的格局, 存算一体架构正承载着多种存储介质:

传统存储器阵营, 易失性存储器包括 SRAM、DRAM、非易失性存储器包括 NAND、NOR 等, 新型存储器包括 RRAM、MRAM 等。同时, 不同介质使用的应用场景也大不相同。

目前, 在传统存储器阵营中,SRAM、DRAM、NOR Flash 出现的频次更高。

SRAM

一种静态随机存储器, 原理是利用晶体管是否接通来代表一个 bit 是 1 还是 0, 有着以下特性:

基于速度快、成熟度高、密度难以突破的特性,SRAM 一直广受欢迎:

在学术领域,SRAM 凭借其高成熟度和高存取速度成为存算一体领域里的热门研究对象;

在市场应用方面,SRAM 作为传统存储介质适合 IP 化,SRAM 存算一体在中小算力、端侧、对待机功耗无要求的场景, 例如可穿戴设备、无人车等市场具有一定的应用价值:

九天睿芯, 基于神经拟态感存算一体架构的芯片已实现量产, 应用于智能语音和视觉识别领域。

苹芯科技, 开发实现多款基于 SRAM 的存内计算加速单元并实现流片, 目前处于外部测试和 demo 阶段, 产品应用于图像识别、无人机等领域。

DRAM

一种动态随机存取存储器, 原理是利用电容内存储电荷的多寡来代表一个 bit 是 1 还是 0。该存储器有着以下特性:

基于容量大、成本低、功耗大等特性,DRAM 常用于更注重容量的主存储器, 如计算机、智能手机、服务器内存等。

NOR Flash

一种非易失闪存技术, 利用存储单元的多值特性, 通过器件本征的物理电气行为 (例如基尔霍夫定律与欧姆定律) 来实现多值 MAC 运算。该存储器有着以下特性:

基于低功耗、容量小等特性,NOR FLASH 更适用于车载摄像头、激光雷达等应用场景:

(Flash 在汽车电子中的应用容量与领域 图源:财信证券)

而在新型存储器中,RRAM、MRAM、PCM 活跃度更高。

RRAM(ReRAM)

一种以非导性材料的电阻在外加电场作用下, 在高阻态和低阻态之间实现可逆转换为基础的非易失性存储器。该存储器有着以下特性:

目前,RRAM 工艺正一步步成熟:在 2021 年, 晶圆代工厂台积电现身, 为 RRAM 站台:宣布 40nmRRAM 进入量产,28nm 和 22nmRRAM 准备量产。

国内同样传来利好消息:2022 年 2 月, 昕原半导体主导建设的 RRAM 12 寸中试生产线顺利完成了自主研发装备的装机验收工作, 实现中试线工艺流程的通线, 并成功流片 (试生产)。

在工艺渐趋成熟背景下, 基于兼容性高、微缩性好等特性,RRAM 更适用于以下场景:

云端 AI 推理和边缘计算。亿铸科技基于 RRAM 研发的「全数字存算一体」大算力芯片, 通过减少数据搬运提高运算能效比, 同时利用数字存算一体方法保证运算精度, 适用于云端 AI 推理和边缘计算。智能汽车。据云岫资本表示,RRAM 不仅满足高读写速度和存储密度的要求, 同时延迟可降低 1000 倍, 可满足未来智能驾驶高实时数据吞吐量。安全性方面,RRAM 具备宽温和可靠性。未来有望出现高性能、高集成度、高稳定性和低功耗的车规 RRAM 存储器。AI 数据中心。RRAM 相较 NAND 可提升 100 倍的读写性能, 同时保持更低的功耗和高存储密度, 有望解决未来数据中心高能效比, 低延迟的需求, 实现更高性能的 AI 数据中心。GPT-4 等大模型。RRAM 基于高密度存储, 工艺兼容带来的性能优势, 能够实现更低功耗、更高性能, 缓解目前的算力压力。MRAM

是一种基于隧穿磁阻效应的技术。该技术的工作原理是使用隧道层的「巨磁阻效应」来读取位单元, 当该层两侧的磁性方向一致时为低电阻, 当磁性方向相反时, 电阻会变得很高。该存储器有以下特性:

基于耐久性高、低功耗等特性,MRAM 有以下合适的应用领域:

适用于消耗大量计算资源的神经网络计算。智能电表等长时间、庞大数据量的应用场景, 它能满足对高耐久性和快速写入速度的需求。PCM

PCM 的原理是通过改变温度, 让相变材料在低电阻结晶 (导电) 状态与高电阻非结晶 (非导电) 状态间转换。该存储器有以下特性:

基于抗辐射性好但成本、良率低等特性, 根据我国拥有 PCM 相变存储器生产能力的集成电路 IDM 企业时代全芯官网显示,PCM 有以下应用领域:

人工智能运算;PCM 为基础的 TCAM 具有占地面积小, 功耗低的优点。AIOT;将智能存储器应用与 IoT 的传感器上, 可以有效的分担传感器对网络和云计算的负荷, 从而进一步拓展物联网的功能。

综合来讲, 存储介质各有各的优点, 也各有各的「舒适圈」:

「新老」器件全面开花, 皆有自己擅长的领域, 但对于玩家来说, 选择受限:传统存储市场已被垄断。

内存行业, 美光、三星和 SK Hynix 在高性能存储领域市占率达 100%;高性能计算领域, 英特尔、AMD 和英伟达的市场占有率也接近 100%。高性能芯片代工领域, 则被台积电和三星联合垄断。

例如 DRAM, 因极高的技术和资金壁垒,DRAM 领域市场处于高度集中甚至垄断态势。目前,DRAM 芯片市场是由三星、SK 海力士和美光统治:2018 至 2020 年, 三大巨头市场占有率合计在 95% 左右。

基于此, 初创企业正另辟蹊径:要么基于传统存储介质的存算一体制定特定场景的芯片;要么在存算一体架构下, 用新型存储器, 打破垄断。

由上面两张图可以看到, 仅有选择新型存储器 RRAM 的公司, 能够实现大算力, 而其余基于传统存储器的基本仅能 cover 住 AIOT、车载模块等低算力场景。

例如亿铸科技, 基于 RRAM 研发「全数字存算一体」大算力芯片, 通过减少数据搬运提高能效比, 同时利用数字存算一体保证运算精度, 能够应用于云端 AI 推理、边缘计算、数据中心、自动驾驶等大算力场景。

03从 2MB 的 AIOT 到 512MB 的自动驾驶

从上文公司产品应用场景可以看出, 存算一体应用广泛, 既能装在一块小小的智能门锁, 也能应用于 1000+TOPS 的数据中心。那么, 存算一体到底能 cover 住多少场景?

综合市面上已有的报告以及专家观点, 偲睿洞察将应用场景按照算力大小进行划分:

一是端侧小算力场景, 例如智能可穿戴设备、智能安防、移动终端、AR\VR 等。

二是大算力场景, 例如云计算数据中心、自动驾驶、GPT-4 等大模型等。

目前, 业内对于大算力的「大」界定是模糊的, 而根据下游市场的实际需求,大算力起码是 1000TOPS 及以上:

以 2020 年发布的 GPT3 预训练语言模型为例, 采用的是 2020 年最先进的英伟达 A100 GPU, 算力是 624 TOPS。2023 年, 随着模型预训练阶段模型迭代, 又新增访问阶段井喷的需求, 未来模型对于芯片算力的需求起码要破千。

再例如自动驾驶领域, 根据财通证券研究所表明, 自动驾驶所需单个芯片的算力未来起码 1000+TOPS。目前巨头已开始卷上 1000+TOPS 的 SoC, 主要用于自动驾驶领域:在 2021 年 4 月, 英伟达就已经发布了算力为 1000TOPS 的 DRIVE Atlan 芯片。到了今年, 英伟达直接推出芯片 Thor 达到 2000TOPS。

目前来看, 在存算一体架构下, 能够真正实现大算力的, 仅有亿铸科技一家:

而在这两大类场景之中, 存算一体并非都有着绝对性的优势。针对端侧的可穿戴等小设备, 由于 AI 加速能力占比过小, 存算一体的优势并不大:ARM 占 30%, 降噪或 ISP 占 40%,AI 加速能力仅占 30%。

但云和边缘大算力场景, 是存算一体芯片的优势领域。这是因为, 大算力场景下, 对设备提出了高要求:实现高性能、高计算密度、高算力的同时还需实现低功耗。而这, 就大部分仰仗于 AI 能力。据业内人士表示, 存算一体在云和边缘的大算力领域的竞争力影响约占 90%。

04未来的路:「第三极」、融合、突破天花板

存算一体正博得学界、产界等各路人马的青睐, 基于现有的技术、发展路径以及应用场景并结合业内人士观点, 偲睿洞察认为, 存算一体将有着以下发展趋势:

1、随着 AI 技术的加速落地,ChatGPT 等大模型对算力的大量需求, 将为存算一体技术带来核级推动力。存算一体将成为继 CPU、GPU 架构之后的算力架构「第三极」

2、在布局存算一体的玩家之中, 有创新精神、强劲研发、工程实力的团队及公司将脱颖而出。

这是因为, 存算一体芯片在设计层面有较高难度, 且没有成熟的方法可供参考:存算一体是计算系统和存储系统的整合设计, 比标准模拟 IP 和存储器 IP 更复杂, 依赖于多次存储器流片而积累的经验, 这就需要创始团队有充分的存储器量产经验和技术路线认知。

根据量子位针对存算一体公司多位高管的多次采访, 综合来看, 团队需具备以下能力:

1) 领导层要有清晰的目标:在存储器和计算模式、架构的选择上要有清晰的思路, 并且能够准确、快速地带领团队往前走。

2) 团队需具有深厚技术背景的人员, 对技术方向有精准把握, 尤其是在新型存储器技术上的探索。

3) 在核心研发、工程团队中, 需要在技术的各个层级中配备经验丰富的人才。

3、与多种先进技术融合, 实现系统级创新, 从而突破算力天花板

在 ISSCC 2023, 苏妈提出系统级创新概念, 即从整体设计的上下游多个环节协同设计来完成芯片性能的提升, 并给出使用该概念实现数量级的效率提升案例。

也就是说, 若是将存算一体、Chiplet(芯粒)、3D 封装等技术同步使用, 很有可能带来数量级的效率提升, 从而突破性能瓶颈。

目前, 国内已有团队进行「系统级创新」实践:作为首发存算一体超异构概念的亿铸科技,提出了自己的技术畅想:

若能把新型忆阻器技术 (RRAM)、存算一体架构、芯粒技术 (Chiplet)、3D 封装等技术结合, 将会实现更大的有效算力、放置更多的参数、实现更高的能效比、更好的软件兼容性、从而抬高 AI 大算力芯片的发展天花板。

来源:互联网

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。