Moreh vLLM

在AMD GPU上服务LLM的最快方式

AMD Instinct GPU上吞吐量最高提升2倍的vLLM即插即用替代方案。相同的API，相同的模型格式——只是更快。单个Docker镜像，几分钟内即可部署。

申请演示查看基准测试

Benchmarks

跨模型验证的性能

DeepSeek R1 671B · 8× AMD Instinct MI300X

在不同输入长度、输出长度和并发数下，相对于ROCm vLLM的标准化输出token/s。

Moreh vLLM 0.9.0

ROCm vLLM 0.9.2

SGLang 0.4.8

使用vLLM的benchmark_serving工具测量。

基于预设的部署

Moreh vLLM为热门模型和硬件配置提供优化预设。选择预设，指定模型路径即可开始服务——并行度、内存和内核设置均自动处理。

部署示例

$ docker run --device /dev/kfd --device /dev/dri \
  --network host -v /models:/models \
  moreh/moreh-vllm:latest \
  serve.sh /models/DeepSeek-R1 \
    presets/deepseek-ai-deepseek-r1-amd-mi300x-dp8-moe-ep8.yaml

技术原理

为何更快

Moreh vLLM将计算后端替换为专为AMD GPU架构构建的引擎。

AMD GPU定制库

专为AMD GPU架构构建的计算库——包括GEMM、Attention、MoE和融合运算。

模型优化

通过算子融合、图级执行和量化等技术，使每个模型尽可能高效运行。

多GPU扩展

通信/计算重叠、EP负载均衡等优化，实现服务器内跨GPU扩展。

支持的模型

针对热门开源LLM进行了优化，包括：

DeepSeek

GPT-OSS

Llama

Qwen

Mistral

GLM

Step及更多

支持的硬件

AMD Instinct MI355XAMD Instinct MI325XAMD Instinct MI308XAMD Instinct MI300XAMD Instinct MI250

使用专有模型？

Moreh为您在AMD GPU上的私有和微调模型提供按需vLLM优化。我们根据您的模型架构构建定制的Moreh vLLM，让您无需额外工作即可获得同等性能提升。

我们已为多家客户实现了这一目标，包括StepFun（在MI308X上部署Step3 321B，解码吞吐量比NVIDIA H20高1.30×）和一家韩国大型电信运营商（在MI300X上部署78亿参数关联模型，服务容量比NVIDIA H100高1.38×）。

联系我们 ›