Moreh vLLM

AMD GPUでLLMをサービングする最速の方法

AMD Instinct GPUで最大2倍のスループットを実現するvLLMのドロップインリプレースメント。同じAPI、同じモデルフォーマット — ただ高速に。単一のDockerイメージで数分でデプロイできます。

デモを依頼ベンチマークを見る

Benchmarks

モデル全体で実証された性能

DeepSeek R1 671B · 8× AMD Instinct MI300X

入力長、出力長、同時リクエスト数別のROCm vLLMに対する正規化出力トークン/秒。

Moreh vLLM 0.9.0

ROCm vLLM 0.9.2

SGLang 0.4.8

vLLMのbenchmark_servingツールで測定。

追加の評価レポート

Moreh が AMD MI300X の潜在能力を引き出す：DeepSeek R1 推論で SGLang (InferenceMAX) より 1.5 倍高速 Step3 推論最適化：AMD Instinct MI308X で NVIDIA H20 比 1.30 倍の Decode スループットを実現通信事業者 LLM 推論最適化：AMD MI300X でサービング容量 1.38 倍を達成 Moreh vLLM 性能評価：AMD Instinct MI300X GPU における Llama 3.3 70B AMD Instinct MI300X GPUにおけるMoreh vLLM性能評価：DeepSeek V3/R1 671B

すべてのベンチマークを見る ›

はじめに

プリセットベースのデプロイ

Moreh vLLMは、人気モデルやハードウェア構成向けに最適化されたプリセットを提供します。プリセットを選択してモデルを指定すれば、並列度、メモリ、カーネル設定が自動的に処理されます。

デプロイ例

$ docker run --device /dev/kfd --device /dev/dri \
  --network host -v /models:/models \
  moreh/moreh-vllm:latest \
  serve.sh /models/DeepSeek-R1 \
    presets/deepseek-ai-deepseek-r1-amd-mi300x-dp8-moe-ep8.yaml

技術の仕組み

高速な理由

Moreh vLLMは、AMD GPUアーキテクチャ専用に構築されたエンジンでコンピュートバックエンドを置き換えます。

AMD GPU専用ライブラリ

GEMM、Attention、MoE、フュージョン演算など、AMD GPUアーキテクチャに特化したコンピュートライブラリ。

モデル最適化

演算フュージョン、グラフレベル実行、量子化などの技術で各モデルを最大限効率的に実行します。

マルチGPUスケーリング

通信/コンピュートオーバーラップ、EPロードバランシングなど、サーバー内のGPU間スケーリングのための最適化。

対応モデル

主要なオープンソースLLMに最適化されています：

DeepSeek

GPT-OSS

Llama

Qwen

Mistral

GLM

Stepその他多数

対応ハードウェア

AMD Instinct MI355XAMD Instinct MI325XAMD Instinct MI308XAMD Instinct MI300XAMD Instinct MI250

独自モデルをお使いですか？

Morehは、AMD GPU上のプライベートモデルやファインチューニングモデル向けにオンデマンドのvLLM最適化を提供します。モデルアーキテクチャに合わせたカスタムMoreh vLLMを構築し、お客様側の追加作業なしに同等の性能向上を実現します。

StepFun（MI308XでStep3 321B、NVIDIA H20比1.30×高いデコードスループット）や韓国大手通信事業者（MI300Xで78億パラメータの関連会社モデル、NVIDIA H100比1.38×高いサービング容量）など、複数のお客様でこれを実現しています。

お問い合わせ ›