Distributed Inference on Heterogeneous Accelerators Including GPUs, Rubin CPX, and AI Accelerators

降低推理成本已成为所有AI数据中心和服务公司面临的核心挑战之一。从GPU内核到模型架构，各个层面都在研究各种技术，以减少计算量并提高GPU利用率。

其中最值得关注的话题之一是集群级别的分布式推理。过去，推理优化主要集中在单个GPU或单个节点上实现良好性能。在集群级别，只是使用负载均衡器将请求均匀分配到各个节点。然而，人们现在意识到，模型和请求在多个GPU节点之间的分配方式对整体GPU利用率有决定性影响。通过有效应用disaggregation和smart routing等分布式推理技术，可以将给定基础设施的并发量提升2到10倍。这反过来显著降低了AI服务的成本，即每token的美元开销。

Per-node inference and distributed inference. — 单节点推理与分布式推理。

为什么分布式推理现在如此重要

分布式推理变得重要的首要原因是AI数据中心必须处理的推理工作负载日益多样化。基础LLM正在变得越来越大、越来越复杂。特别是随着DeepSeek R1和GPT-OSS等Mixture of Experts (MoE)模型的普及，模型disaggregation已开始在性能中发挥重要作用。DeepSeek已经发布了其软件架构，通过高效的跨节点Expert Parallelism (EP)以低成本服务其671B MoE模型。

随着需要长上下文推理的应用——如AI编码助手——持续增长，每个传入请求的序列长度变得高度可变。具有不同性能特征的prefill和decode阶段都已成为整体性能的关键因素。这使得为prefill和decode阶段分配适当数量的GPU、对每个阶段应用不同的并行化和优化策略、以及对每个阶段进行不同的请求调度变得越来越重要。此外，KV cache命中率现在也是整体性能的关键因素。

最后，根据情况动态调用多个多模态模型的多模型代理工作流越来越常见。因此，在不同模型之间高效分配GPU并确保各种应用的服务级别目标（SLO）已成为一个具有挑战性的问题。数据中心面临着艰难的任务——在试图理解复杂GPU硬件性能特征的同时，优化相互矛盾的指标，如吞吐量提升、延迟降低和公平性保障。

MoAI Inference Framework

分布式推理并不仅仅意味着应用prefill-decode、expert parallelization、KV cache aware routing等单独的disaggregation和routing技术。更大的挑战在于有效组合多种技术，以在特定系统上实现有意义的性能提升。尽管现在许多开源项目都支持各种分布式推理技术，但将它们整合并部署到实际基础设施中仍然依赖手工操作。

作为解决方案，Moreh推出了MoAI Inference Framework。该框架旨在不仅在NVIDIA GPU上，还在AMD GPU和Tenstorrent AI accelerator组成的集群系统上实现高效的分布式推理。利用其独特的cost model，该框架自动识别、应用并动态调整数据中心中大量accelerator的最优利用方式。即使在当今最复杂的AI工作负载环境中，也能同时提供更快的推理速度、更高的资源利用率和更优的成本效益。

在AI数据中心中混合使用异构Accelerator

作为分布式推理重要性日益增长的逻辑结果，更多的AI数据中心将寻求通过混合不同类型的accelerator来最大化整体计算效率。这是自然而然的，因为没有单一accelerator能够对所有多样化的推理工作负载都是最优的。例如，在prefill和decode阶段之间、短输入序列和长输入序列之间、语言模型和视频生成模型之间，最优的accelerator可能各不相同。

NVIDIA最近发布的Rubin CPX也符合这一趋势。该芯片强调计算性能而非内存带宽，采用GDDR7内存代替HBM。具体来说，其内存带宽仅为2 TB/s——仅为提供20.5 TB/s的Rubin GPU (VR200)的10%。然而，其FP4性能达到20.0 PFLOPS，约为Rubin GPU的33.3 PFLOPS的60%。

NVIDIA's Vera Rubin NVL144 CPX system containing 72 Rubin GPUs and 144 Rubin CPX. (Source: NVIDIA Newsroom) — NVIDIA的Vera Rubin NVL144 CPX系统，包含72个Rubin GPU和144个Rubin CPX。（来源：NVIDIA Newsroom）

像NVIDIA的Vera Rubin NVL144 CPX这样同时集成CPX和GPU的集群系统，可以通过多种方式利用这些性能差异。最基本的，在LLM推理中，计算密集型的prefill阶段可以在CPX上执行，而内存密集型的decode阶段在GPU上运行——这是NVIDIA为CPX公开的使用场景。但除此之外，还有许多其他可能性。例如，相对计算密集型的视频生成模型可以在CPX上执行，而内存密集型的语言模型在GPU上运行。或者，在单个模型内，可以考虑将FFN层卸载到CPX，同时在GPU上运行Attention层，扩展Attention-FFN disaggregation技术。另一种方法是在小批量时主要依赖GPU，但随着批量大小增加将更多工作分配给CPX。

除了NVIDIA的GPU和CPX组合之外，还可以考虑许多其他构建异构集群的配置。例如，在大规模数据中心中混合使用两代不同的NVIDIA GPU是常见做法。另一个选择是将NVIDIA GPU与AMD GPU结合使用。这不仅有助于避免对单一硬件供应商的锁定，还利用了AMD GPU在内存密集型工作负载上通常比同代NVIDIA GPU提供更好性能这一事实。此外，GPU还可以与Tenstorrent AI accelerator混合使用。Tenstorrent Wormhole和Blackhole处理器使用GDDR6内存，与CPX类似，非常适合计算密集型工作负载。

异构Accelerator分布式推理的软件挑战

然而，在实践中实现这一目标面临着重大的软件挑战。计算必须针对不同的accelerator架构进行充分优化。必须在异构accelerator之间实现高带宽、低延迟的通信。虽然不同供应商设备之间的RDMA通信在物理上是可行的，但在软件层面面临许多障碍。

最重要的是，最大的挑战在于跨异构accelerator的高效模型disaggregation、工作负载分配和扩展。仅仅将两种工作负载分配到两种accelerator类型上，不足以实现真正的效率。例如，在Vera Rubin NVL144集群系统中，CPX和GPU以2:1的比例安装。但prefill和decode阶段的比例既不是固定的，也不能保证恰好是2 CPX : 1 GPU。如果没有软件级别的动态资源分配，闲置资源将不可避免地出现。当必须同时服务多个多模态模型时，问题变得更加复杂。

MoAI Inference Framework在异构accelerator环境中展现出其全部价值。通过基于cost model的自动化分布式推理，它可以动态有效地协同利用异构accelerator。该框架还包含一个通信库，能够在通过RoCE网络连接的异构供应商硬件之间实现RDMA通信。Moreh vLLM是MoAI Inference Framework的后端，集成了针对AMD GPU和Tenstorrent AI accelerator的库级和模型级优化，释放其全部潜力，实现与NVIDIA GPU相当甚至更优的性能。

案例研究：AMD MI300X与MI308X GPU之间的Disaggregation

我们展示了使用MoAI Inference Framework在异构accelerator之间应用分布式推理的实际案例。AMD的MI308X GPU是原始MI300X GPU的变体。MI308X的内存带宽与MI300X相同，均为5.3 TB/s，但其FP8计算性能仅为0.47 PFLOPS——仅为MI300X的2.6 PFLOPS的18%。与GPU和CPX的关系类似，这种性能差异使得MI300X在计算密集型的prefill阶段更具优势，而MI308X在内存密集型的decode阶段更为高效。

An example of the prefill-decode disaggregation between AMD MI300X and MI308X GPUs. In the output throughput experiments, input length = 31744, output length = 1024, with concurrency = 8 for single-server tests and concurrency = 24 for the cluster-level test. — AMD MI300X与MI308X GPU之间prefill-decode disaggregation的示例。在output throughput实验中，input length = 31744，output length = 1024，单服务器测试的concurrency = 8，集群级测试的concurrency = 24。

我们在由一台MI300X服务器（各8个GPU）和两台MI308X服务器（各8个GPU）组成的集群上，使用MoAI Inference Framework应用了prefill-decode disaggregation。在不进行disaggregation的情况下端到端运行DeepSeek R1 671B模型时，MI300X服务器实现了105.16 tokens/sec的output throughput，而MI308X服务器达到了30.42 tokens/sec。如果这些服务器仅通过负载均衡器简单连接，集群的总output throughput仅为166.00 tokens/sec。然而，通过在MI300X服务器上分别执行prefill阶段、在MI308X服务器上执行decode阶段，总output throughput提升至253.59 tokens/sec，性能提升约53%。

结论

多模态和Agentic AI时代的到来要求我们从根本上重新思考传统的单模型、单服务器推理系统。与此同时，NVIDIA发布的Rubin CPX处理器引起了人们对根据性能特征利用异构accelerator进行分布式推理技术的关注。

MoAI Inference Framework是在实际AI数据中心中实施分布式推理的最佳选择。它在包括AMD GPU和Tenstorrent处理器在内的非NVIDIA accelerator上提供最优性能，同时自动化了将（部分）模型和工作负载分配到异构accelerator上这一困难而复杂的任务。

如果您希望了解本案例研究之外的更多结果，或亲自试用MoAI Inference Framework，请通过contact@moreh.io与我们联系。

在包括GPU、Rubin CPX和AI Accelerator在内的异构Accelerator上进行分布式推理

为什么分布式推理现在如此重要

MoAI Inference Framework

在AI数据中心中混合使用异构Accelerator

异构Accelerator分布式推理的软件挑战

案例研究：AMD MI300X与MI308X GPU之间的Disaggregation

结论