Blog
在包括GPU、Rubin CPX和AI Accelerator在内的异构Accelerator上进行分布式推理
September 23, 2025
本文档由AI自动翻译。内容可能存在不准确之处,如有需要请参阅英文原文。 查看英文原文
降低推理成本已成为所有AI数据中心和服务公司面临的核心挑战之一。从GPU内核到模型架构,各个层面都在研究各种技术,以减少计算量并提高GPU利用率。
其中最值得关注的话题之一是集群级别的分布式推理。过去,推理优化主要集中在单个GPU或单个节点上实现良好性能。在集群级别,只是使用负载均衡器将请求均匀分配到各个节点。然而,人们现在意识到,模型和请求在多个GPU节点之间的分配方式对整体GPU利用率有决定性影响。通过有效应用disaggregation和smart routing等分布式推理技术,可以将给定基础设施的并发量提升2到10倍。这反过来显著降低了AI服务的成本,即每token的美元开销。

为什么分布式推理现在如此重要
分布式推理变得重要的首要原因是AI数据中心必须处理的推理工作负载日益多样化。基础LLM正在变得越来越大、越来越复杂。特别是随着DeepSeek R1和GPT-OSS等Mixture of Experts (MoE)模型的普及,模型disaggregation已开始在性能中发挥重要作用。DeepSeek已经发布了其软件架构,通过高效的跨节点Expert Parallelism (EP)以低成本服务其671B MoE模型。
随着需要长上下文推理的应用——如AI编码助手——持续增长,每个传入请求的序列长度变得高度可变。具有不同性能特征的prefill和decode阶段都已成为整体性能的关键因素。这使得为prefill和decode阶段分配适当数量的GPU、对每个阶段应用不同的并行化和优化策略、以及对每个阶段进行不同的请求调度变得越来越重要。此外,KV cache命中率现在也是整体性能的关键因素。
最后,根据情况动态调用多个多模态模型的多模型代理工作流越来越常见。因此,在不同模型之间高效分配GPU并确保各种应用的服务级别目标(SLO)已成为一个具有挑战性的问题。数据中心面临着艰难的任务——在试图理解复杂GPU硬件性能特征的同时,优化相互矛盾的指标,如吞吐量提升、延迟降低和公平性保障。
MoAI Inference Framework
分布式推理并不仅仅意味着应用prefill-decode、expert parallelization、KV cache aware routing等单独的disaggregation和routing技术。更大的挑战在于有效组合多种技术,以在特定系统上实现有意义的性能提升。尽管现在许多开源项目都支持各种分布式推理技术,但将它们整合并部署到实际基础设施中仍然依赖手工操作。

作为解决方案,Moreh推出了MoAI Inference Framework。该框架旨在不仅在NVIDIA GPU上,还在AMD GPU和Tenstorrent AI accelerator组成的集群系统上实现高效的分布式推理。利用其独特的cost model,该框架自动识别、应用并动态调整数据中心中大量accelerator的最优利用方式。即使在当今最复杂的AI工作负载环境中,也能同时提供更快的推理速度、更高的资源利用率和更优的成本效益。
在AI数据中心中混合使用异构Accelerator
作为分布式推理重要性日益增长的逻辑结果,更多的AI数据中心将寻求通过混合不同类型的accelerator来最大化整体计算效率。这是自然而然的,因为没有单一accelerator能够对所有多样化的推理工作负载都是最优的。例如,在prefill和decode阶段之间、短输入序列和长输入序列之间、语言模型和视频生成模型之间,最优的accelerator可能各不相同。
NVIDIA最近发布的Rubin CPX也符合这一趋势。该芯片强调计算性能而非内存带宽,采用GDDR7内存代替HBM。具体来说,其内存带宽仅为2 TB/s——仅为提供20.5 TB/s的Rubin GPU (VR200)的10%。然而,其FP4性能达到20.0 PFLOPS,约为Rubin GPU的33.3 PFLOPS的60%。

像NVIDIA的Vera Rubin NVL144 CPX这样同时集成CPX和GPU的集群系统,可以通过多种方式利用这些性能差异。最基本的,在LLM推理中,计算密集型的prefill阶段可以在CPX上执行,而内存密集型的decode阶段在GPU上运行——这是NVIDIA为CPX公开的使用场景。但除此之外,还有许多其他可能性。例如,相对计算密集型的视频生成模型可以在CPX上执行,而内存密集型的语言模型在GPU上运行。或者,在单个模型内,可以考虑将FFN层卸载到CPX,同时在GPU上运行Attention层,扩展Attention-FFN disaggregation技术。另一种方法是在小批量时主要依赖GPU,但随着批量大小增加将更多工作分配给CPX。
除了NVIDIA的GPU和CPX组合之外,还可以考虑许多其他构建异构集群的配置。例如,在大规模数据中心中混合使用两代不同的NVIDIA GPU是常见做法。另一个选择是将NVIDIA GPU与AMD GPU结合使用。这不仅有助于避免对单一硬件供应商的锁定,还利用了AMD GPU在内存密集型工作负载上通常比同代NVIDIA GPU提供更好性能这一事实。此外,GPU还可以与Tenstorrent AI accelerator混合使用。Tenstorrent Wormhole和Blackhole处理器使用GDDR6内存,与CPX类似,非常适合计算密集型工作负载。
异构Accelerator分布式推理的软件挑战
然而,在实践中实现这一目标面临着重大的软件挑战。计算必须针对不同的accelerator架构进行充分优化。必须在异构accelerator之间实现高带宽、低延迟的通信。虽然不同供应商设备之间的RDMA通信在物理上是可行的,但在软件层面面临许多障碍。
最重要的是,最大的挑战在于跨异构accelerator的高效模型disaggregation、工作负载分配和扩展。仅仅将两种工作负载分配到两种accelerator类型上,不足以实现真正的效率。例如,在Vera Rubin NVL144集群系统中,CPX和GPU以2:1的比例安装。但prefill和decode阶段的比例既不是固定的,也不能保证恰好是2 CPX : 1 GPU。如果没有软件级别的动态资源分配,闲置资源将不可避免地出现。当必须同时服务多个多模态模型时,问题变得更加复杂。
MoAI Inference Framework在异构accelerator环境中展现出其全部价值。通过基于cost model的自动化分布式推理,它可以动态有效地协同利用异构accelerator。该框架还包含一个通信库,能够在通过RoCE网络连接的异构供应商硬件之间实现RDMA通信。Moreh vLLM是MoAI Inference Framework的后端,集成了针对AMD GPU和Tenstorrent AI accelerator的库级和模型级优化,释放其全部潜力,实现与NVIDIA GPU相当甚至更优的性能。
案例研究:AMD MI300X与MI308X GPU之间的Disaggregation
我们展示了使用MoAI Inference Framework在异构accelerator之间应用分布式推理的实际案例。AMD的MI308X GPU是原始MI300X GPU的变体。MI308X的内存带宽与MI300X相同,均为5.3 TB/s,但其FP8计算性能仅为0.47 PFLOPS——仅为MI300X的2.6 PFLOPS的18%。与GPU和CPX的关系类似,这种性能差异使得MI300X在计算密集型的prefill阶段更具优势,而MI308X在内存密集型的decode阶段更为高效。

我们在由一台MI300X服务器(各8个GPU)和两台MI308X服务器(各8个GPU)组成的集群上,使用MoAI Inference Framework应用了prefill-decode disaggregation。在不进行disaggregation的情况下端到端运行DeepSeek R1 671B模型时,MI300X服务器实现了105.16 tokens/sec的output throughput,而MI308X服务器达到了30.42 tokens/sec。如果这些服务器仅通过负载均衡器简单连接,集群的总output throughput仅为166.00 tokens/sec。然而,通过在MI300X服务器上分别执行prefill阶段、在MI308X服务器上执行decode阶段,总output throughput提升至253.59 tokens/sec,性能提升约53%。
结论
多模态和Agentic AI时代的到来要求我们从根本上重新思考传统的单模型、单服务器推理系统。与此同时,NVIDIA发布的Rubin CPX处理器引起了人们对根据性能特征利用异构accelerator进行分布式推理技术的关注。
MoAI Inference Framework是在实际AI数据中心中实施分布式推理的最佳选择。它在包括AMD GPU和Tenstorrent处理器在内的非NVIDIA accelerator上提供最优性能,同时自动化了将(部分)模型和工作负载分配到异构accelerator上这一困难而复杂的任务。
如果您希望了解本案例研究之外的更多结果,或亲自试用MoAI Inference Framework,请通过contact@moreh.io与我们联系。