Benchmarks
モデル全体で実証された性能
DeepSeek R1 671B · 8× AMD Instinct MI300X
入力長、出力長、同時リクエスト数別のROCm vLLMに対する正規化出力トークン/秒。
Moreh vLLM 0.9.0
ROCm vLLM 0.9.2
SGLang 0.4.8
vLLMのbenchmark_servingツールで測定。
追加の評価レポート
Moreh が AMD MI300X の潜在能力を引き出す:DeepSeek R1 推論で SGLang (InferenceMAX) より 1.5 倍高速Step3 推論最適化:AMD Instinct MI308X で NVIDIA H20 比 1.30 倍の Decode スループットを実現通信事業者 LLM 推論最適化:AMD MI300X でサービング容量 1.38 倍を達成Moreh vLLM 性能評価:AMD Instinct MI300X GPU における Llama 3.3 70BAMD Instinct MI300X GPUにおけるMoreh vLLM性能評価:DeepSeek V3/R1 671B
はじめに
プリセットベースのデプロイ
Moreh vLLMは、人気モデルやハードウェア構成向けに最適化されたプリセットを提供します。プリセットを選択してモデルを指定すれば、並列度、メモリ、カーネル設定が自動的に処理されます。
デプロイ例
$ docker run --device /dev/kfd --device /dev/dri \
--network host -v /models:/models \
moreh/moreh-vllm:latest \
serve.sh /models/DeepSeek-R1 \
presets/deepseek-ai-deepseek-r1-amd-mi300x-dp8-moe-ep8.yaml技術の仕組み
高速な理由
Moreh vLLMは、AMD GPUアーキテクチャ専用に構築されたエンジンでコンピュートバックエンドを置き換えます。
AMD GPU専用ライブラリ
GEMM、Attention、MoE、フュージョン演算など、AMD GPUアーキテクチャに特化したコンピュートライブラリ。
モデル最適化
演算フュージョン、グラフレベル実行、量子化などの技術で各モデルを最大限効率的に実行します。
マルチGPUスケーリング
通信/コンピュートオーバーラップ、EPロードバランシングなど、サーバー内のGPU間スケーリングのための最適化。
対応モデル
主要なオープンソースLLMに最適化されています:
対応ハードウェア
AMD Instinct MI355XAMD Instinct MI325XAMD Instinct MI308XAMD Instinct MI300XAMD Instinct MI250
独自モデルをお使いですか?
Morehは、AMD GPU上のプライベートモデルやファインチューニングモデル向けにオンデマンドのvLLM最適化を提供します。モデルアーキテクチャに合わせたカスタムMoreh vLLMを構築し、お客様側の追加作業なしに同等の性能向上を実現します。
StepFun(MI308XでStep3 321B、NVIDIA H20比1.30×高いデコードスループット)や韓国大手通信事業者(MI300Xで78億パラメータの関連会社モデル、NVIDIA H100比1.38×高いサービング容量)など、複数のお客様でこれを実現しています。
お問い合わせ ›