Benchmarks
モデル全体で実証された性能
DeepSeek R1 671B · 8× AMD Instinct MI300X
入力長、出力長、同時リクエスト数別のROCm vLLMに対する正規化出力トークン/秒。
Moreh vLLM 0.9.0
ROCm vLLM 0.9.2
SGLang 0.4.8
vLLMのbenchmark_servingツールで測定。
追加の評価レポート
Moreh Unlocks AMD MI300X Potential: 1.5× Faster DeepSeek R1 Inference vs. SGLang (InferenceMax)Step3 Inference Optimization on AMD Instinct MI308X: 1.30× Higher Decode Throughput vs. NVIDIA H20Moreh vLLM Performance Evaluation: Llama 3.3 70B on AMD Instinct MI300X GPUsMoreh vLLM Performance Evaluation: DeepSeek V3/R1 671B on AMD Instinct MI300X GPUs
はじめに
プリセットベースのデプロイ
Moreh vLLMは、人気モデルやハードウェア構成向けに最適化されたプリセットを提供します。プリセットを選択してモデルを指定すれば、並列度、メモリ、カーネル設定が自動的に処理されます。
デプロイ例
$ docker run --device /dev/kfd --device /dev/dri \
--network host -v /models:/models \
moreh/moreh-vllm:latest \
serve.sh /models/DeepSeek-R1 \
presets/deepseek-ai-deepseek-r1-amd-mi300x-dp8-moe-ep8.yaml技術の仕組み
高速な理由
Moreh vLLMは、AMD GPUアーキテクチャ専用に構築されたエンジンでコンピュートバックエンドを置き換えます。
AMD GPU専用ライブラリ
GEMM、Attention、MoE、フュージョン演算など、AMD GPUアーキテクチャに特化したコンピュートライブラリ。
モデル最適化
演算フュージョン、グラフレベル実行、量子化などの技術で各モデルを最大限効率的に実行します。
マルチGPUスケーリング
通信/コンピュートオーバーラップ、EPロードバランシングなど、サーバー内のGPU間スケーリングのための最適化。
対応モデル
主要なオープンソースLLMに最適化されています:
対応ハードウェア
AMD Instinct MI355XAMD Instinct MI325XAMD Instinct MI308XAMD Instinct MI300XAMD Instinct MI250
独自モデルをお使いですか?
Morehは、AMD GPU上のプライベートモデルやファインチューニングモデル向けにオンデマンドのvLLM最適化を提供します。モデルアーキテクチャに合わせたカスタムMoreh vLLMを構築し、お客様側の追加作業なしに同等の性能向上を実現します。
StepFun Step3をAMD MI308Xに最適化した事例をご覧ください。NVIDIA H20比1.30倍のデコードスループットを達成しました。
お問い合わせ ›