‹ Back to Blog

Blog

Moreh が AMD MI300X の潜在能力を引き出す:DeepSeek R1 推論で SGLang (InferenceMAX) より 1.5 倍高速

March 16, 2026

Authors: Bongwon Jang

この文書はAIによって自動翻訳されたものです。不自然な表現や不正確な内容が含まれる場合がありますので、必要に応じて英語の原文をご参照ください。 英語の原文を見る

はじめに

DeepSeek R1 のような大規模モデルの登場と AI 需要の急増に伴い、推論性能のわずかな差でさえ、大規模運用時には数百万ドルのトークン単価の差に直結する可能性があります。このため、GPU 推論性能の客観的な測定がますます重要になっており、SemiAnalysis のオープンソースベンチマークフレームワーク InferenceMAX はその代表例です。InferenceMAX は数百基の GPU で毎晩テストを実行し、推論性能をリアルタイムに追跡しており、業界で最も信頼される測定システムの一つとなっています。

問題は、多くの人が公開されている InferenceMAX の数値をハードウェアの実際の性能上限と見なしていることです。しかし、これらの数値はデフォルトのオープンソースソフトウェア(SGLang)が達成した結果であり——ハードウェア自体の限界ではありません。ソフトウェアの最適化の深さによって、同じハードウェアから大幅に高い性能を引き出すことが可能です。これは特に AMD に当てはまります。NVIDIA の CUDA エコシステムと比較して推論ソフトウェアがまだ成熟していないため——最適化の余地が大きく、ソフトウェアの役割がさらに重要になります。

当社独自の最適化推論エンジンを使用して同じ InferenceMAX ベンチマークを実行したところ、公開されている InferenceMAX の数値と比較して、 エンドツーエンドレイテンシで 1.47 倍の改善、GPU あたりスループットで 1.47 倍の向上(幾何平均) を確認しました。これは、ソフトウェア最適化が AMD GPU の潜在能力を最大限に引き出す鍵であること——そして Moreh がそれを実現する技術力を持っていることを裏付けています。AMD インフラの導入を検討している組織にとって、Moreh との連携は同じハードウェアでより高い推論性能を実現し、大規模運用における推論コストの削減につながります。本記事では、テスト結果をもとに、同一ハードウェアにおけるソフトウェア最適化がどれほどの性能差を生み出すかをご紹介します。

課題:ソフトウェアこそが AMD GPU の真のボトルネック

スペック上、AMD Instinct MI300X は印象的な推論アクセラレータです。192 GB の HBM3 メモリと 5.3 TB/s のメモリ帯域幅を備えており——競合の NVIDIA H100 と比較してそれぞれ約 2.4 倍、1.7 倍に相当します。

しかし実際には、AMD の推論ソフトウェアエコシステムは NVIDIA の CUDA ベースのスタックほど成熟していません。SemiAnalysis もレポートの中で、コンポーザビリティが AMD の最大の課題であると指摘しています。個々の最適化技術——FP8 量子化、MoE kernel、Expert Parallelism——はそれぞれ単体では効果を発揮しますが、それらを一つのプロダクショングレードのパイプラインに統合することは依然として困難です。

DeepSeek R1 のモデル特性がさらに複雑さを増しています。671B パラメータの MoE モデルで、各 decoder block に 256 の expert を持ち、Multi-Head Latent Attention (MLA) と長い chain-of-thought 出力を組み合わせています——これにより広範な最適化サーフェスが形成されます。これは同時に、デフォルトのオープンソースソフトウェア構成では活用しきれない大きな性能向上余地があることを意味します。

これらのボトルネックに対処するため、Moreh は GPU kernel レベルまで最適化を施した独自の推論エンジンを開発しました。デフォルトのオープンソースソフトウェアが見落としている領域——MoE kernel の効率性、FP8 KV cache の活用、kernel launch のオーバーヘッドなど——に取り組み、さらなる性能向上を実現しました。以下では、Moreh の最適化推論エンジンが既存のオープンソースソフトウェアによる InferenceMAX ベンチマーク結果をどのように上回ったかを検証します。

テスト環境

CategorySpecification
GPUAMD Instinct MI300X (8 GPUs per node)
ModelDeepSeek R1 0528
PrecisionFP8
BenchmarkInferenceMAX benchmark suite
BaselinePublic SGLang results (January 26, 2026)
Inference FrameworkMoreh Optimized Inference Engine (Moreh-vLLM)

ベンチマーク構成

InferenceMAX のベンチマーク構成を正確に再現し、3 つの代表的な ISL/OSL(Input Sequence Length / Output Sequence Length)シナリオをカバーしました:

  • 1K/1K — バランス型ワークロード(短文脈 Q&A、チャット)
  • 1K/8K — 長出力ワークロード(推論、コーディング、chain-of-thought)
  • 8K/1K — 長入力ワークロード(ドキュメント処理、要約、RAG)

各シナリオは同時実行数 4、8、16、32、64(総リクエスト数 40~640)でテストされ、最大スループットを測定するために無制限のリクエストレートが適用されました。

性能評価

結果サマリー

15 種類すべてのベンチマーク構成において、Moreh-vLLM——Moreh の最適化技術で構築された推論エンジン——は、同じ AMD MI300X ハードウェア上で公開されている InferenceMAX の数値を一貫して上回りました。

MetricGeometric Mean Improvement
Median End-to-End Latency (E2EL)1.47x
Total Throughput per GPU (tok/s/gpu)1.47x
Figure 1. Performance speedup for various request patterns (end-to-end latency).
図 1. 各種リクエストパターンにおける性能高速化。数値が高いほど良好。Moreh-vLLM はエンドツーエンドレイテンシを平均 1.47 倍低減。
Figure 2. Performance speedup for various request patterns (throughput).
図 2. 各種リクエストパターンにおける性能高速化。数値が高いほど良好。Moreh-vLLM はスループットを平均 1.47 倍向上。

シナリオ別詳細分析

1K/1K (ISL=1,024, OSL=1,024)

CONMedian E2E Latency (s)Total Throughput per GPU (tok/s/gpu)
SGLangMoreh-vLLMImprovementSGLangMoreh-vLLMImprovement
424.6815.431.60x35.9158.291.62x
827.0617.641.53x66.15103.441.56x
1629.622.181.33x120.13163.571.36x
3237.5729.251.28x190.84247.981.30x
6448.5539.151.24x294.07371.631.26x

性能改善は低同時実行数(CON=4)で最も顕著であり、レイテンシは 1.60 倍、スループットは 1.62 倍向上しました。これは、小バッチサイズで支配的な kernel launch オーバーヘッドを Moreh の最適化が効果的に排除した結果です。

同時実行数の増加に伴いゲインは緩やかになりますが、CON=64 においても 1.24 倍以上の有意な改善が維持されています。

Figure 3. Throughput-Latency trade-off comparison (ISL=1,024, OSL=1,024).
図 3. スループット-レイテンシのトレードオフ比較 (ISL=1,024, OSL=1,024)。Moreh は大幅に低いエンドツーエンドレイテンシで高いスループットを維持し、SGLang を上回る効率を実証。

1K/8K (ISL=1,024, OSL=8,192)

CONMedian E2E Latency (s)Total Throughput per GPU (tok/s/gpu)
SGLangMoreh-vLLMImprovementSGLangMoreh-vLLMImprovement
4203.9117.621.73x19.433.691.74x
8210.22134.71.56x38.4860.111.56x
16239.432173.81.38x67.8493.491.38x
32347.05221.341.57x93.95147.161.57x
64395.78291.091.36x162.89221.71.36x

1K/8K シナリオは長い出力の生成を伴い、decode 性能のストレステストを目的としています。ここで Moreh のメモリ帯域幅利用率を最大化する最適化が最も際立ちました。特に CON=4 における 1.73 倍のレイテンシ改善と 1.74 倍のスループット向上は、長い生成ワークロードに対する当社の最適化の効果を明確に示しています。

同時実行数が増えるにつれて、ワークロードは徐々にコンピュートバウンドに移行し、ソフトウェア最適化の差は縮小します。しかし、CON=64 においてもエンドツーエンドレイテンシとスループットの両方で 1.36 倍の有意な性能向上を記録しました。

Figure 4. Throughput-Latency trade-off comparison (ISL=1,024, OSL=8,192).
図 4. スループット-レイテンシのトレードオフ比較 (ISL=1,024, OSL=8,192)。Moreh は大幅に低いエンドツーエンドレイテンシで高いスループットを維持し、SGLang を上回る効率を実証。

8K/1K (ISL=8,192, OSL=1,024)

CONMedian E2E Latency (s)Total Throughput per GPU (tok/s/gpu)
SGLangMoreh-vLLMImprovementSGLangMoreh-vLLMImprovement
430.8416.821.83x129.74236.71.82x
832.7220.491.60x243.75396.341.63x
1638.7728.241.37x402.33567.921.41x
3260.3141.331.46x522.94781.021.49x
6488.0664.751.36x722.49840.531.16x

8K/1K シナリオは prefill が支配的なワークロードです。CON=4 における 1.83 倍のピークレイテンシ改善は、Moreh の prefill フェーズ向け kernel 最適化によるものです。注目すべきは、最大同時実行数(CON=64)においても 1.36 倍のレイテンシ改善と 1.16 倍のスループット向上を達成した点であり——高負荷下でも有意な性能優位性を示しています。

Figure 5. Throughput-Latency trade-off comparison (ISL=8,192, OSL=1,024).
図 5. スループット-レイテンシのトレードオフ比較 (ISL=8,192, OSL=1,024)。Moreh は大幅に低いエンドツーエンドレイテンシで高いスループットを維持し、SGLang を上回る効率を実証。

主要な知見

  1. すべての同時実行レベルで一貫した性能改善。 同じパターンが 3 つのシナリオすべてに現れています。小バッチサイズでは kernel launch オーバーヘッドとオペレーションごとの非効率性が全体性能を支配しており——ここで Moreh の最適化が最大の効果を発揮します。同時実行数が増加しても、すべての構成で少なくとも 1.16 倍の安定した性能向上が維持されており、最適化の効果が特定の条件に限定されず、全般的に一貫して適用されることを示しています。
  2. Moreh の最適化は長出力ワークロードでも有効。 推論モデルの台頭に伴い、chain-of-thought のような長出力ワークロードが急速に増加しています。1K/8K シナリオでは 1.36 倍から 1.74 倍の性能改善が観察されました——これは長い decode シーケンスにおける持続的な帯域幅利用率の最適化の成果です。
  3. スループットとレイテンシの改善はほぼ同じ割合で拡大。 幾何平均はほぼ対称的に 1.47 倍対 1.47 倍です。これは、当社の最適化が単にレイテンシ-スループットのトレードオフをシフトさせたのではなく——実際の計算効率を向上させたことを示しています。
  4. ハードウェアは同一。変わったのはソフトウェアのみ。 すべての結果は同じ AMD MI300X GPU 上で達成されました。性能差は、デフォルトのオープンソースソフトウェアよりも深い当社独自の最適化——小バッチサイズでの kernel launch オーバーヘッドの削減、GPU メモリ帯域幅利用率の最大化、prefill 操作の最適化など——によるものです。

結論

AMD GPU におけるソフトウェア最適化は、オープンソースソフトウェアで完結するものではありません。また、InferenceMAX で公開されている数値はハードウェアの性能限界を示すものでもありません。本評価では、より深いソフトウェア最適化により、AMD MI300X が DeepSeek R1 FP8 推論において エンドツーエンドレイテンシで 1.47 倍の改善、GPU あたりスループットで 1.47 倍の改善 を達成できることを実証しました——現在公開されている InferenceMAX のベースラインとの比較です。

推論効率の 1 パーセントポイントの向上は、オープンウェイトモデルを大規模に提供する CSP や企業にとって、トークン単価の直接的なコスト削減につながります。Moreh は、AMD インフラの導入を検討する組織にとって、同じハードウェアから最大限の性能を引き出す実績あるソフトウェアパートナーとなれます。当社は AMD GPU における推論性能の限界を押し広げ続け、より多くの組織が AMD インフラの価値を最大限に実現できるよう取り組んでまいります。

Moreh の推論最適化の詳細については、 moreh.io および docs.moreh.io をご覧ください。