
摘要
14 日,清华大学高性能计算研究所翟季冬教授团队与清华系科创企业清程极智联合宣布,开源大模型推理引擎「赤兔 Chitu」。
14 日,清华大学高性能计算研究所翟季冬教授团队与清华系科创企业清程极智联合宣布,开源大模型推理引擎「赤兔 Chitu」,该引擎首次实现在非英伟达 Hopper 架构 GPU 及各类国产芯片上原生运行 FP8 精度模型,为国产 AI 芯片的广泛应用和生态建设带来了新的突破。
打破「硬件绑定」困境,FP8 模型部署不再受限
DeepSeek 的发展推动了 FP8 精度模型成为行业主流,随着 DeepSeek 的持续火热,企业大模型私有化部署的需求也呈现井喷态势。
然而,当前全球领先的 FP8 模型长期依赖英伟达 H 系列高端 GPU,这使得国内企业在部署大模型时受限于 AI 芯片的限制。一方面,英伟达 H 系列芯片的进口受限,导致国内企业难以获取高性能硬件支持;另一方面,大多数国产芯片因不支持 FP8 数据类型,无法充分发挥新一代 AI 模型的性能,企业部署成本高昂。
为打破这一困境,清华大学与清程极智联合开源的「赤兔」推理引擎应运而生。该引擎通过底层技术革新,首次实现了非 H 卡设备(包括英伟达 Hopper 架构之前的 GPU 卡及各类国产卡)对原生 FP8 模型的高效部署,摆脱对特定硬件的依赖,极大地降低了企业部署 AI 模型的门槛和成本。
清华大学翟季冬教授强调,赤兔凝结了团队多年并行计算与编译优化技术积累,目标是「弥合先进模型与多样化硬件之间的差距,让国产算力真正『跑起来』,为中国大模型产业落地提供关键支撑」。清程极智 CEO 汤雄超表示:「赤兔的定位是成为连接多元算力与大模型应用的桥梁。我们不仅支持英伟达全系列 GPU,还针对国产芯片深度优化,未来将陆续开源适配版本。」
性能实测:GPU减半 速度还提 3 倍
「赤兔」引擎在性能优化和架构适应性方面展现了显著优势。
在首期开源版本中,赤兔引擎部署 DeepSeek-R1-671B 满血版时,在 A800 集群的测试中,相比部分国外开源框架,GPU 使用量减少 50% 的情况下推理速度仍有 3.15 倍提速。这意味着企业可以用更少的硬件资源获得更高的推理性能,极大降低了部署门槛和运营成本。
在帮助企业降本增效的同时,赤兔引擎的技术可实现模型效果不受损。这一成果源于团队对 GeMM、MoE 等核心算子的指令级优化,直接处理 FP8 数据而非简单量化,确保模型精度无损。
目前,赤兔引擎目标建立覆盖从纯 CPU 到大规模集群的全场景大模型部署需求,适配英伟达多款 GPU 及多款国产芯片。同时面对市场上不同的大模型算力优化需求,赤兔支持低延迟、高吞吐、小显存三方面优化,用最低成本实现最高性能。」基于这样的设计理念,集成赤兔引擎的大模型部署服务客户覆盖面非常广泛。
直面大模型部署成本痛点,推动AI普及
今年以来,随着 DeepSeek—R1、QwQ 等优秀的国产开源大模型的不断涌现,大模型私有化部署的需求越来越旺盛,但大模型部署和运营成本居高不下,因此显著降低推理成本对推广 AI 应用至关重要。为此,赤兔引擎从底层设计上便将「算力效率」作为首要优化目标,力求以更低资源消耗实现更高性能输出。
本次开源的版本特别聚焦于当前市场最迫切的需求——将 DeepSeek-R1 FP8 精度模型无损且高效地部署在存量英伟达 GPU 上。团队表示,针对多款国产芯片特别优化的版本也将陆续开源。这一突破不仅为企业提供了更高效、更灵活的 AI 部署解决方案,降低了大模型落地门槛,也为国产 AI 算力的发展带来了新的契机。
此外,清程极智推出基于赤兔的「推理一体机」,提供开箱即用部署方案及专业运维服务,进一步简化企业 AI 落地流程。
开源共建:为国产芯片「抢时间」
清程极智 CEO 汤雄超表示:当前国内在推理引擎这一核心环节,仍缺乏生产级开源产品。开源「赤兔」引擎是助力国内 AI 生态建设的重要一步。
为加速生态建设,赤兔团队与多家国产芯片厂商展开合作,开放代码贡献通道,缩短硬件适配周期。「开源不仅是技术共享,更是为国产芯片『抢时间』,当新模型或数据类型出现时,赤兔能助力国产芯片跟上国际节奏,缩小与国际先进芯片之间的『时间差』。」汤雄超表示。
随着「赤兔」引擎的开源,「国产大模型+国产引擎+国产芯片」技术闭环正在加速成型,中国大模型产业从技术到生态的全面突破,已按下加速键。「无论用什么卡,赤兔都会是高性价比的选择。」赤兔团队的这句话折射出国产 AI 基础设施从追赶迈向引领的决心。