中科驭数 DPU 助力大模型训练和推理

随着深度学习技术的快速发展，大模型 (如 GPT、BERT 等) 在自然语言处理、计算机视觉等领域取得了显著成果。然而，大模型的参数量和计算量极其庞大，传统的硬件架构或者单台设备 (如单个 GPU) 难以满足其计算需求。大模型的特点如下：

1. DeepSeek-R1 模型的参数量高达 6710 亿，训练过程需要数万台 GPU 协同工作。

2. 计算需求：大模型的前向传播、反向传播和梯度更新涉及大规模的矩阵运算，单设备无法在合理时间内完成。

3. 内存需求：大模型的参数和中间结果需要大量内存存储，单设备的内存容量有限。

4. 数据需求：大模型的训练需要海量数据，单设备难以高效处理。

为提高大模型的计算效率，必须充分利用矩阵和向量运算的内在并行性。大模型训练的核心流程：前向传播、反向传播和梯度更新，均依赖大规模矩阵计算，这为分布式并行提供了天然优势。目前，主要的并行计算策略包括：

a) 数据并行 (Data Parallelism)：将训练数据拆分成多个批次或子集，分配到多个设备上执行局部计算。各设备独立计算梯度后，通过梯度同步或聚合机制实现全局参数更新。

b) 模型并行 (Model Parallelism)：将模型按照参数或模块划分，分布到多台设备上进行计算。当模型单个设备内存难以容纳时，模型并行可以有效扩展计算规模。

c) 流水线并行 (Pipeline Parallelism)：将模型按照层级或阶段划分成多个片段，各设备依次负责不同层的计算。数据在设备间依次传递，形成一条类似流水线的处理路径，从而在不同处理阶段实现并行性。

分布式计算通过多种并行策略的协同应用，不仅可以突破单设备算力和内存的限制，还能显著加速大规模深度学习模型的训练。

在大模型训练和推理中，GPU 虽然是核心计算单元，但其计算能力往往受到数据管理、通信和存储等任务的限制。DPU(Data Processing Unit，数据处理单元) 作为一种新型硬件加速器，正在成为大模型训练和推理的重要助力。DPU 的出现正是为了解决这些问题：

a) 卸载 GPU 的计算负担：GPU 主要负责矩阵运算等核心计算任务，但数据加载、预处理、通信等任务会占用其资源。DPU 可以接管这些任务，通过高速 I/O 接口直接从存储设备读取数据，减少 CPU 的介入。大模型训练需要频繁读取和写入大量数据 (如模型参数、中间结果、数据集等)，传统的存储系统可能成为瓶颈。DPU 支持 NVMe over Fabric/RDMA 等高速存储协议，能够直接从远程存储设备读取数据。让 GPU 专注于计算，从而提高整体效率。

b) 优化数据预处理与检索：大模型在训练阶段需要大量的预处理 (如图像增强、文本分词等)，在推理阶段也需要通过知识库进行检索增强，这些操作通过远程访问分布式文件系统来完成。在 CPU 处理模式下，远端存储访问协议的处理成为瓶颈。我们通过 DPU 进行远端存储访问协议的卸载，提高数据读写的效率，提供比 CPU 更高的吞吐量和更低的延迟。

c) 加速分布式训练中的通信：分布式训练中，GPU 之间的通信 (如梯度同步) 会消耗大量时间。DPU 可以优化通信任务，支持高效的 All-Reduce 操作，减少通信延迟。DPU 内置专用的通信引擎，使能 GPU Direct RDMA，减少 CPU 的干预，实现超高带宽、低延迟的 GPU 间通信。

d) 提高能效比：DPU 专门针对数据管理和通信任务进行了优化，能够以更低的功耗完成这些任务，从而降低整体能耗

中科驭数作为国内领军的 DPU 芯片和产品供应商，凭借多年在 DPU 领域的积累，不断推陈出新，基于公司全自研的国产芯片 K2-Pro，推出应用于智算中心的系列产品和方案。

图 1 : 中科驭数 K2-Pro

K2-Pro 芯片的网络处理能力，可以很好的支撑国产化推理集群的各种应用需求，在中科驭数自建的全国产化推理集群中，很好的承担了高通量网络传输，云化流表卸载与分布式资源快速加载的任务。

同时，在 AI 模型训练方向，中科驭数完全自主研发的 RDMA 网卡助力数据中心高速网络连接，确保大规模模型的数据传输效率，减少通信延迟，提升整体计算性能。RDMA 性能达到 200Gbps。释放 CPU 算力，弥补国产 CPU 性能不足问题。提供微秒级时延和百 G 级带宽以及千万级别的 IOPS 存储访问能力，满足模型计算对数据快速加载的性能要求。

近日，中科驭数基于全国产化 CPU、GPU、DPU 三 U 一体设备本地化部署了 DeepSeek 模型，系统中通过国产 CPU 实现整体业务调度与主要服务进程运行，采用国产 GPU 完成模型推理运算，由中科驭数 DPU 进行设备裸金属业务管理以及云化网络/存储能力卸载提速。该系统底层采用全国产化的 3U 一体服务器搭建，在兼顾安全性与低成本的同时，可以高效运行 DeepSeek-V3 与 DeepSeek-R1 等多个 AI 推理模型系统。中科驭数通过这种方式完成多个 AI 模型适配，打通全国产化三 U 一体算力底层支撑，能够帮助 AI 应用在落地过程中实现更好的数据隐私性保护与抵御外部风险的能力，同时也积极推动产业链协同与资源优化整合。

图 2 ：中科驭数智算中心解决方案

DPU 通过卸载 GPU 的计算负担、优化数据预处理、加速通信和存储任务，正在成为大模型训练和推理的重要助力。驭数的 DPU 产品凭借其高性能、低功耗和可扩展性，为大模型训练和推理提供了强有力的支持。随着深度学习技术的进一步发展，类似 DeepSeek 大模型的兴起，以及由此带来对智算资源的大幅优化，给国产 GPU 和 CPU 实现高效大模型训练和推理的大规模部署带来巨大可能和期盼。

同时，智算租赁因为 DeepSeek 模型对于部署资源的优化，让最终从「看着挺美」变成「用着挺美」。很多用户开始尝试租赁智能算资源，这要求智算资源可以按需快速部署。中科驭数的 DPU 产品，通过流程简化和存储卸载，实现了裸金属部署时间从传统的 30 分钟优化到 3 分钟，大大便利了资源的反复利用，也极大地提升了客户订阅的体验。

来源：互联网

最新文章