Benchmarks
跨模型验证的性能
DeepSeek R1 671B · 8× AMD Instinct MI300X
在不同输入长度、输出长度和并发数下,相对于ROCm vLLM的标准化输出token/s。
Moreh vLLM 0.9.0
ROCm vLLM 0.9.2
SGLang 0.4.8
使用vLLM的benchmark_serving工具测量。
更多评估报告
Moreh Unlocks AMD MI300X Potential: 1.5× Faster DeepSeek R1 Inference vs. SGLang (InferenceMax)Step3 Inference Optimization on AMD Instinct MI308X: 1.30× Higher Decode Throughput vs. NVIDIA H20Moreh vLLM Performance Evaluation: Llama 3.3 70B on AMD Instinct MI300X GPUsMoreh vLLM Performance Evaluation: DeepSeek V3/R1 671B on AMD Instinct MI300X GPUs
快速开始
基于预设的部署
Moreh vLLM为热门模型和硬件配置提供优化预设。选择预设,指定模型路径即可开始服务——并行度、内存和内核设置均自动处理。
部署示例
$ docker run --device /dev/kfd --device /dev/dri \
--network host -v /models:/models \
moreh/moreh-vllm:latest \
serve.sh /models/DeepSeek-R1 \
presets/deepseek-ai-deepseek-r1-amd-mi300x-dp8-moe-ep8.yaml技术原理
为何更快
Moreh vLLM将计算后端替换为专为AMD GPU架构构建的引擎。
AMD GPU定制库
专为AMD GPU架构构建的计算库——包括GEMM、Attention、MoE和融合运算。
模型优化
通过算子融合、图级执行和量化等技术,使每个模型尽可能高效运行。
多GPU扩展
通信/计算重叠、EP负载均衡等优化,实现服务器内跨GPU扩展。
支持的模型
针对热门开源LLM进行了优化,包括:
支持的硬件
AMD Instinct MI355XAMD Instinct MI325XAMD Instinct MI308XAMD Instinct MI300XAMD Instinct MI250
使用专有模型?
Moreh为您在AMD GPU上的私有和微调模型提供按需vLLM优化。我们根据您的模型架构构建定制的Moreh vLLM,让您无需额外工作即可获得同等性能提升。
查看我们如何 为AMD MI308X优化StepFun的Step3,实现比NVIDIA H20高1.30×的Decode吞吐量。
联系我们 ›