Moreh vLLM

AMD GPUでLLMをサービングする最速の方法

AMD Instinct GPUで最大2倍のスループットを実現するvLLMのドロップインリプレースメント。同じAPI、同じモデルフォーマット — ただ高速に。単一のDockerイメージで数分でデプロイできます。

Benchmarks

モデル全体で実証された性能

DeepSeek R1 671B · 8× AMD Instinct MI300X

入力長、出力長、同時リクエスト数別のROCm vLLMに対する正規化出力トークン/秒。

Moreh vLLM 0.9.0
ROCm vLLM 0.9.2
SGLang 0.4.8
正規化出力TPS (ROCm vLLM = 1)00.51.01.52.02.5(1K, 1K, 1)(1K, 1K, 8)(1K, 1K, 32)(4K, 1K, 1)(4K, 1K, 8)(4K, 1K, 32)(32K, 1K, 1)(32K, 1K, 8)(32K, 1K, 32)(入力長, 出力長, 同時リクエスト数)

vLLMのbenchmark_servingツールで測定。

はじめに

プリセットベースのデプロイ

Moreh vLLMは、人気モデルやハードウェア構成向けに最適化されたプリセットを提供します。プリセットを選択してモデルを指定すれば、並列度、メモリ、カーネル設定が自動的に処理されます。

デプロイ例

$ docker run --device /dev/kfd --device /dev/dri \
  --network host -v /models:/models \
  moreh/moreh-vllm:latest \
  serve.sh /models/DeepSeek-R1 \
    presets/deepseek-ai-deepseek-r1-amd-mi300x-dp8-moe-ep8.yaml

技術の仕組み

高速な理由

Moreh vLLMは、AMD GPUアーキテクチャ専用に構築されたエンジンでコンピュートバックエンドを置き換えます。

AMD GPU専用ライブラリ

GEMM、Attention、MoE、フュージョン演算など、AMD GPUアーキテクチャに特化したコンピュートライブラリ。

モデル最適化

演算フュージョン、グラフレベル実行、量子化などの技術で各モデルを最大限効率的に実行します。

マルチGPUスケーリング

通信/コンピュートオーバーラップ、EPロードバランシングなど、サーバー内のGPU間スケーリングのための最適化。

対応モデル

主要なオープンソースLLMに最適化されています:

DeepSeekDeepSeekGPT-OSSGPT-OSSLlamaLlamaQwenQwenMistralMistralGLMGLMStepStepその他多数

対応ハードウェア

AMD Instinct MI355XAMD Instinct MI325XAMD Instinct MI308XAMD Instinct MI300XAMD Instinct MI250

独自モデルをお使いですか?

Morehは、AMD GPU上のプライベートモデルやファインチューニングモデル向けにオンデマンドのvLLM最適化を提供します。モデルアーキテクチャに合わせたカスタムMoreh vLLMを構築し、お客様側の追加作業なしに同等の性能向上を実現します。

StepFun Step3をAMD MI308Xに最適化した事例をご覧ください。NVIDIA H20比1.30倍のデコードスループットを達成しました。

お問い合わせ ›