Customer Case
电信运营商 LLM 推理优化:AMD MI300X 服务容量提升 1.38 倍
November 25, 2025
本文档由AI自动翻译。内容可能存在不准确之处,如有需要请参阅英文原文。 查看英文原文
背景
韩国一家大型电信运营商计划使用其集团内关联公司开发的一个 7.8B 参数稠密 LLM 部署 LLM 驱动的服务。作为基础设施评估的一部分,他们希望将 AMD Instinct MI300X 与现有的 NVIDIA H100 GPU 在生产环境中的模型推理性能进行对比。
客户委托 Moreh 在 MI300X 上对该关联公司模型进行推理优化,并与 H100 进行正面基准测试对比。目标不仅是测量原始速度,还要回答一个具体的业务问题:在保持可接受的响应质量的前提下,单个 GPU 能同时服务多少并发用户?
对于部署面向客户的 AI 服务的电信运营商来说,这是一个常见问题,因为并发会话数直接决定了所需的 GPU 数量 — 进而决定了总体基础设施成本。
为什么选择这些指标
在深入分析结果之前,有必要解释为什么选择每个指标。客户正在设计一项面向订阅用户的 LLM 服务,因此每个指标都对应用户体验和运营成本的一个具体方面:
- TTFT(Time To First Token):用户在服务开始响应前的等待时间。在对话界面中,高 TTFT 会让人感觉迟缓,导致用户流失。这是“感知响应速度”指标。
- TPOT(Time Per Output Token):生成过程中连续 token 之间的间隔,决定了响应的流式传输速度。较低的 TPOT 产生自然、实时打字般的文本体验;较高的值则会导致明显的卡顿或延迟。
- E2EL(End-to-End Latency):从请求提交到最后一个 token 的总时间。这反映了用户等待完整响应的总时长。
- Output TPS(Tokens Per Second):聚合吞吐量 — 系统每秒生成多少个 token。更高的 TPS 意味着每个 GPU 在单位时间内完成更多工作。
- 最大并发数:单个 GPU 在保持 TTFT 和 TPOT 处于客户指定阈值(即服务级别目标 SLO)以内的情况下,能同时处理的最大请求数。这是运营上最重要的指标:它直接决定了客户为给定用户群需要采购多少个 GPU。
测试配置
所有测试均为单 GPU 对单 GPU 的对比:
- MI300X 端:1× AMD Instinct MI300X(192 GB HBM3e),运行 Moreh vLLM
- H100 端:1× NVIDIA H100 SXM(80 GB HBM3),运行 vLLM
工作负载使用了 ShareGPT 对话记录 — 来自类 ChatGPT 服务的真实对话日志 — 以模拟真实的对话交互。与使用固定输入/输出长度的合成基准测试不同,ShareGPT 记录反映了实际用户高度多变的请求模式:简短的后续问题、较长的初始提示、不同的响应长度等。这使得结果更能代表客户在生产环境中实际观察到的情况。
优化技术
在新的 GPU 平台上运行关联公司开发的模型并不是简单地更换硬件。该模型是在 NVIDIA GPU 上开发和测试的,AMD ROCm 上的默认开源 vLLM 还有很大的性能提升空间。Moreh 应用了两项关键优化来弥补这一差距,充分释放 MI300X 的全部潜力:
- 自定义 attention 后端:AMD ROCm 上存在多种 attention kernel 实现,但对于该模型架构,没有任何一种在所有场景下都能持续优于其他实现。Moreh 分别对 prefill 和 decode 阶段的每个候选 kernel 进行了性能分析,然后将每个阶段表现最佳的 kernel 整合为一个统一的自定义 attention 后端。仅此一项优化,相比基线 ROCm vLLM,输出吞吐量和 token 间延迟就提升了 17%。
- 形状感知调度的 GEMM 调优:模型的 BF16 矩阵乘法通过通用 GEMM 路径进行计算。Moreh 在多个 GEMM 后端之上构建了一个自定义调度层(包括 aiter.tgemm 和针对 decode 中典型小 batch 大小优化的专用 skinny-GEMM kernel),然后为模型中出现的每种 GEMM 形状调优了形状特定的调度表。这额外带来了 10% 的输出吞吐量提升和 3% 的 TTFT 改善。
综合来看,这些优化使得 MI300X 上的 Moreh vLLM 比同一 MI300X 硬件上的基线 ROCm vLLM 快了最多 27% — 这还是在与 H100 对比之前。以下结果反映的是这一完全优化后的配置。
单请求延迟
第一项测试在单请求(无并发负载)条件下测量基线性能。这隔离了每个平台的原始推理速度,排除了批处理效应:
| Metric | Moreh vLLM (MI300X) | vLLM (H100) | Comparison |
|---|---|---|---|
| Output TPS (tok/s) | 186.75 | 143.39 | 1.30× higher |
| TPOT (ms) | 5.33 | 6.96 | 1.31× faster |
| End-to-End Latency (ms) | 2,913 | 3,808 | 1.31× faster |
Single request, ShareGPT workload, single GPU. TPOT = Time Per Output Token, E2EL = End-to-End Latency.
在单请求条件下,MI300X 上的 Moreh vLLM 实现了 1.30× 的输出吞吐量提升和全指标 1.31× 的延迟降低。从实际体验来看,用户将看到完整响应提前约 900 ms 到达(2.9 秒 vs. 3.8 秒)— 在对话界面中这是一个显著的改善。
这一优势源于 MI300X 更高的 HBM3e 内存带宽(5.3 TB/s vs. H100 的 3.35 TB/s),以及上述 Moreh vLLM 的 kernel 级优化。
符合 SLO 的最大服务容量
原始的单请求速度虽然有用,但生产部署决策取决于另一个问题:一个 GPU 能在保持可接受服务质量的同时为多少用户提供并发服务?
为了回答这个问题,测试逐步增加并发请求数,直到系统无法再满足客户指定的服务级别目标(SLO):
- TTFT < 1,000 ms
- TPOT < 100 ms
这些阈值由客户根据其自身服务要求定义。在同时满足两项 SLO 的前提下的最大并发数,代表了单个 GPU 的有效服务容量。
| Metric | Moreh vLLM (MI300X) | vLLM (H100) | Comparison |
|---|---|---|---|
| Max Concurrency (SLO-compliant) | 880 | 636 | 1.38× |
Customer-specified SLO thresholds: TTFT < 1,000 ms, TPOT < 100 ms. ShareGPT workload on a single GPU.
MI300X 上的 Moreh vLLM 实现了 1.38× 的 SLO 合规服务容量提升:每 GPU 880 个并发请求,而 H100 为 636 个。单个 MI300X 在保持 TTFT 和 TPOT 均在客户指定范围内的同时,能服务多 38% 的并发会话。
对于计划服务数百万订阅用户的电信运营商来说,这一差异在规模化时会产生复合效应。如果服务需要处理 10,000 个并发会话,则大约需要 12 个 MI300X GPU,而 H100 GPU 需要 16 个 — 仅从服务容量优势来看就减少了 25% 的 GPU 数量,这还不包括硬件成本差异。
模型精度验证
更换 GPU 平台和推理引擎可能会引入细微的数值差异,从而影响模型输出质量。为验证迁移至 MI300X 配合 Moreh vLLM 后不会损害模型能力,在两个平台上均测量了 MMLU(Massive Multitask Language Understanding, 5-shot)准确率:
| Benchmark | Moreh vLLM (MI300X) | vLLM (H100) |
|---|---|---|
| MMLU (5-shot) | 65.25 | 65.80 |
MMLU = Massive Multitask Language Understanding. The 0.55-point difference is within normal variance and does not indicate quality regression.
0.55 分的差异完全在 MMLU 评估的正常方差范围内,证实 Moreh vLLM 对 MI300X 的优化不会引入任何有意义的质量退化。客户可以放心地在 MI300X 上部署,响应质量将与其 H100 基线保持一致。
TCO 分析
将性能结果与硬件经济性相结合,可以清楚地展现总拥有成本(TCO)情况:
- 服务容量优势:每个 MI300X 服务的并发用户数是 H100 的 1.38 倍,减少了给定工作负载所需的 GPU 数量。
- 硬件成本优势:AMD Instinct MI300X 的采购成本低于 NVIDIA H100 SXM。
综合两项因素,我们的内部分析预计该推理工作负载在 MI300X + Moreh vLLM 平台上的成本效率可提高高达 70%。对于在全国范围内部署 AI 服务的电信运营商来说,这意味着显著的资本支出节省。
总结
此次与韩国一家大型电信运营商的合作表明,AMD Instinct MI300X 搭配 Moreh vLLM 是生产环境 LLM 推理中 NVIDIA H100 的有力替代方案。对于其关联公司开发的 7.8B 参数模型:
- 单请求吞吐量提升 1.30×,端到端延迟降低 1.31×
- 符合 SLO 的服务容量提升 1.38×(每 GPU 880 vs. 636 个并发会话)
- 模型精度一致(MMLU 65.25 vs. 65.80)
- 成本效率提高高达 70%(综合考虑性能和硬件成本优势)
该关联公司开发的 LLM 需要 Moreh 进行专门的优化工作 — 包括模型专属的 attention 后端和形状感知 GEMM 调优 — 才能在 AMD 硬件上高效运行。这展示了 Moreh 为 AMD GPU 优化模型的能力,使客户能够多元化其 GPU 供应链,降低对单一供应商的依赖。
Moreh 为 AMD GPU 上的模型提供自定义 vLLM 优化服务。如果您正在评估 AMD Instinct GPU 用于推理工作负载,请联系我们,讨论我们如何提供帮助。