Moreh vLLM

在AMD GPU上服务LLM的最快方式

AMD Instinct GPU上吞吐量最高提升2倍的vLLM即插即用替代方案。相同的API,相同的模型格式——只是更快。单个Docker镜像,几分钟内即可部署。

Benchmarks

跨模型验证的性能

DeepSeek R1 671B · 8× AMD Instinct MI300X

在不同输入长度、输出长度和并发数下,相对于ROCm vLLM的标准化输出token/s。

Moreh vLLM 0.9.0
ROCm vLLM 0.9.2
SGLang 0.4.8
标准化输出TPS(ROCm vLLM = 1)00.51.01.52.02.5(1K, 1K, 1)(1K, 1K, 8)(1K, 1K, 32)(4K, 1K, 1)(4K, 1K, 8)(4K, 1K, 32)(32K, 1K, 1)(32K, 1K, 8)(32K, 1K, 32)(输入长度,输出长度,并发数)

使用vLLM的benchmark_serving工具测量。

快速开始

基于预设的部署

Moreh vLLM为热门模型和硬件配置提供优化预设。选择预设,指定模型路径即可开始服务——并行度、内存和内核设置均自动处理。

部署示例

$ docker run --device /dev/kfd --device /dev/dri \
  --network host -v /models:/models \
  moreh/moreh-vllm:latest \
  serve.sh /models/DeepSeek-R1 \
    presets/deepseek-ai-deepseek-r1-amd-mi300x-dp8-moe-ep8.yaml

技术原理

为何更快

Moreh vLLM将计算后端替换为专为AMD GPU架构构建的引擎。

AMD GPU定制库

专为AMD GPU架构构建的计算库——包括GEMM、Attention、MoE和融合运算。

模型优化

通过算子融合、图级执行和量化等技术,使每个模型尽可能高效运行。

多GPU扩展

通信/计算重叠、EP负载均衡等优化,实现服务器内跨GPU扩展。

支持的模型

针对热门开源LLM进行了优化,包括:

DeepSeekDeepSeekGPT-OSSGPT-OSSLlamaLlamaQwenQwenMistralMistralGLMGLMStepStep及更多

支持的硬件

AMD Instinct MI355XAMD Instinct MI325XAMD Instinct MI308XAMD Instinct MI300XAMD Instinct MI250

使用专有模型?

Moreh为您在AMD GPU上的私有和微调模型提供按需vLLM优化。我们根据您的模型架构构建定制的Moreh vLLM,让您无需额外工作即可获得同等性能提升。

查看我们如何 为AMD MI308X优化StepFun的Step3,实现比NVIDIA H20高1.30×的Decode吞吐量。

联系我们 ›