Moreh Unlocks AMD MI300X Potential: 1.5× Faster DeepSeek R1 Inference vs. SGLang (InferenceMax)

はじめに

DeepSeek R1 のような大規模モデルの登場と AI 需要の急増に伴い、推論性能のわずかな差でさえ、大規模運用時には数百万ドルのトークン単価の差に直結する可能性があります。このため、GPU 推論性能の客観的な測定がますます重要になっており、SemiAnalysis のオープンソースベンチマークフレームワーク InferenceMAX はその代表例です。InferenceMAX は数百基の GPU で毎晩テストを実行し、推論性能をリアルタイムに追跡しており、業界で最も信頼される測定システムの一つとなっています。

問題は、多くの人が公開されている InferenceMAX の数値をハードウェアの実際の性能上限と見なしていることです。しかし、これらの数値はデフォルトのオープンソースソフトウェア（SGLang）が達成した結果であり——ハードウェア自体の限界ではありません。ソフトウェアの最適化の深さによって、同じハードウェアから大幅に高い性能を引き出すことが可能です。これは特に AMD に当てはまります。NVIDIA の CUDA エコシステムと比較して推論ソフトウェアがまだ成熟していないため——最適化の余地が大きく、ソフトウェアの役割がさらに重要になります。

当社独自の最適化推論エンジンを使用して同じ InferenceMAX ベンチマークを実行したところ、公開されている InferenceMAX の数値と比較して、 エンドツーエンドレイテンシで 1.47 倍の改善、GPU あたりスループットで 1.47 倍の向上（幾何平均） を確認しました。これは、ソフトウェア最適化が AMD GPU の潜在能力を最大限に引き出す鍵であること——そして Moreh がそれを実現する技術力を持っていることを裏付けています。AMD インフラの導入を検討している組織にとって、Moreh との連携は同じハードウェアでより高い推論性能を実現し、大規模運用における推論コストの削減につながります。本記事では、テスト結果をもとに、同一ハードウェアにおけるソフトウェア最適化がどれほどの性能差を生み出すかをご紹介します。

課題：ソフトウェアこそが AMD GPU の真のボトルネック

スペック上、AMD Instinct MI300X は印象的な推論アクセラレータです。192 GB の HBM3 メモリと 5.3 TB/s のメモリ帯域幅を備えており——競合の NVIDIA H100 と比較してそれぞれ約 2.4 倍、1.7 倍に相当します。

しかし実際には、AMD の推論ソフトウェアエコシステムは NVIDIA の CUDA ベースのスタックほど成熟していません。SemiAnalysis もレポートの中で、コンポーザビリティが AMD の最大の課題であると指摘しています。個々の最適化技術——FP8 量子化、MoE kernel、Expert Parallelism——はそれぞれ単体では効果を発揮しますが、それらを一つのプロダクショングレードのパイプラインに統合することは依然として困難です。

DeepSeek R1 のモデル特性がさらに複雑さを増しています。671B パラメータの MoE モデルで、各 decoder block に 256 の expert を持ち、Multi-Head Latent Attention (MLA) と長い chain-of-thought 出力を組み合わせています——これにより広範な最適化サーフェスが形成されます。これは同時に、デフォルトのオープンソースソフトウェア構成では活用しきれない大きな性能向上余地があることを意味します。

これらのボトルネックに対処するため、Moreh は GPU kernel レベルまで最適化を施した独自の推論エンジンを開発しました。デフォルトのオープンソースソフトウェアが見落としている領域——MoE kernel の効率性、FP8 KV cache の活用、kernel launch のオーバーヘッドなど——に取り組み、さらなる性能向上を実現しました。以下では、Moreh の最適化推論エンジンが既存のオープンソースソフトウェアによる InferenceMAX ベンチマーク結果をどのように上回ったかを検証します。

テスト環境

Category	Specification
GPU	AMD Instinct MI300X (8 GPUs per node)
Model	DeepSeek R1 0528
Precision	FP8
Benchmark	InferenceMAX benchmark suite
Baseline	Public SGLang results (January 26, 2026)
Inference Framework	Moreh Optimized Inference Engine (Moreh-vLLM)

ベンチマーク構成

InferenceMAX のベンチマーク構成を正確に再現し、3 つの代表的な ISL/OSL（Input Sequence Length / Output Sequence Length）シナリオをカバーしました：

1K/1K — バランス型ワークロード（短文脈 Q&A、チャット）
1K/8K — 長出力ワークロード（推論、コーディング、chain-of-thought）
8K/1K — 長入力ワークロード（ドキュメント処理、要約、RAG）

各シナリオは同時実行数 4、8、16、32、64（総リクエスト数 40～640）でテストされ、最大スループットを測定するために無制限のリクエストレートが適用されました。

性能評価

結果サマリー

15 種類すべてのベンチマーク構成において、Moreh-vLLM——Moreh の最適化技術で構築された推論エンジン——は、同じ AMD MI300X ハードウェア上で公開されている InferenceMAX の数値を一貫して上回りました。

Metric	Geometric Mean Improvement
Median End-to-End Latency (E2EL)	1.47x
Total Throughput per GPU (tok/s/gpu)	1.47x

Figure 1. Performance speedup for various request patterns (end-to-end latency). — 図 1. 各種リクエストパターンにおける性能高速化。数値が高いほど良好。Moreh-vLLM はエンドツーエンドレイテンシを平均 1.47 倍低減。

Figure 2. Performance speedup for various request patterns (throughput). — 図 2. 各種リクエストパターンにおける性能高速化。数値が高いほど良好。Moreh-vLLM はスループットを平均 1.47 倍向上。

シナリオ別詳細分析

1K/1K (ISL=1,024, OSL=1,024)

CON	Median E2E Latency (s)			Total Throughput per GPU (tok/s/gpu)
CON	SGLang	Moreh-vLLM	Improvement	SGLang	Moreh-vLLM	Improvement
4	24.68	15.43	1.60x	35.91	58.29	1.62x
8	27.06	17.64	1.53x	66.15	103.44	1.56x
16	29.6	22.18	1.33x	120.13	163.57	1.36x
32	37.57	29.25	1.28x	190.84	247.98	1.30x
64	48.55	39.15	1.24x	294.07	371.63	1.26x

性能改善は低同時実行数（CON=4）で最も顕著であり、レイテンシは 1.60 倍、スループットは 1.62 倍向上しました。これは、小バッチサイズで支配的な kernel launch オーバーヘッドを Moreh の最適化が効果的に排除した結果です。

同時実行数の増加に伴いゲインは緩やかになりますが、CON=64 においても 1.24 倍以上の有意な改善が維持されています。

Figure 3. Throughput-Latency trade-off comparison (ISL=1,024, OSL=1,024). — 図 3. スループット-レイテンシのトレードオフ比較 (ISL=1,024, OSL=1,024)。Moreh は大幅に低いエンドツーエンドレイテンシで高いスループットを維持し、SGLang を上回る効率を実証。

1K/8K (ISL=1,024, OSL=8,192)

CON	Median E2E Latency (s)			Total Throughput per GPU (tok/s/gpu)
CON	SGLang	Moreh-vLLM	Improvement	SGLang	Moreh-vLLM	Improvement
4	203.9	117.62	1.73x	19.4	33.69	1.74x
8	210.22	134.7	1.56x	38.48	60.11	1.56x
16	239.432	173.8	1.38x	67.84	93.49	1.38x
32	347.05	221.34	1.57x	93.95	147.16	1.57x
64	395.78	291.09	1.36x	162.89	221.7	1.36x

1K/8K シナリオは長い出力の生成を伴い、decode 性能のストレステストを目的としています。ここで Moreh のメモリ帯域幅利用率を最大化する最適化が最も際立ちました。特に CON=4 における 1.73 倍のレイテンシ改善と 1.74 倍のスループット向上は、長い生成ワークロードに対する当社の最適化の効果を明確に示しています。

同時実行数が増えるにつれて、ワークロードは徐々にコンピュートバウンドに移行し、ソフトウェア最適化の差は縮小します。しかし、CON=64 においてもエンドツーエンドレイテンシとスループットの両方で 1.36 倍の有意な性能向上を記録しました。

Figure 4. Throughput-Latency trade-off comparison (ISL=1,024, OSL=8,192). — 図 4. スループット-レイテンシのトレードオフ比較 (ISL=1,024, OSL=8,192)。Moreh は大幅に低いエンドツーエンドレイテンシで高いスループットを維持し、SGLang を上回る効率を実証。

8K/1K (ISL=8,192, OSL=1,024)

CON	Median E2E Latency (s)			Total Throughput per GPU (tok/s/gpu)
CON	SGLang	Moreh-vLLM	Improvement	SGLang	Moreh-vLLM	Improvement
4	30.84	16.82	1.83x	129.74	236.7	1.82x
8	32.72	20.49	1.60x	243.75	396.34	1.63x
16	38.77	28.24	1.37x	402.33	567.92	1.41x
32	60.31	41.33	1.46x	522.94	781.02	1.49x
64	88.06	64.75	1.36x	722.49	840.53	1.16x

8K/1K シナリオは prefill が支配的なワークロードです。CON=4 における 1.83 倍のピークレイテンシ改善は、Moreh の prefill フェーズ向け kernel 最適化によるものです。注目すべきは、最大同時実行数（CON=64）においても 1.36 倍のレイテンシ改善と 1.16 倍のスループット向上を達成した点であり——高負荷下でも有意な性能優位性を示しています。

Figure 5. Throughput-Latency trade-off comparison (ISL=8,192, OSL=1,024). — 図 5. スループット-レイテンシのトレードオフ比較 (ISL=8,192, OSL=1,024)。Moreh は大幅に低いエンドツーエンドレイテンシで高いスループットを維持し、SGLang を上回る効率を実証。

主要な知見

すべての同時実行レベルで一貫した性能改善。 同じパターンが 3 つのシナリオすべてに現れています。小バッチサイズでは kernel launch オーバーヘッドとオペレーションごとの非効率性が全体性能を支配しており——ここで Moreh の最適化が最大の効果を発揮します。同時実行数が増加しても、すべての構成で少なくとも 1.16 倍の安定した性能向上が維持されており、最適化の効果が特定の条件に限定されず、全般的に一貫して適用されることを示しています。
Moreh の最適化は長出力ワークロードでも有効。 推論モデルの台頭に伴い、chain-of-thought のような長出力ワークロードが急速に増加しています。1K/8K シナリオでは 1.36 倍から 1.74 倍の性能改善が観察されました——これは長い decode シーケンスにおける持続的な帯域幅利用率の最適化の成果です。
スループットとレイテンシの改善はほぼ同じ割合で拡大。 幾何平均はほぼ対称的に 1.47 倍対 1.47 倍です。これは、当社の最適化が単にレイテンシ-スループットのトレードオフをシフトさせたのではなく——実際の計算効率を向上させたことを示しています。
ハードウェアは同一。変わったのはソフトウェアのみ。 すべての結果は同じ AMD MI300X GPU 上で達成されました。性能差は、デフォルトのオープンソースソフトウェアよりも深い当社独自の最適化——小バッチサイズでの kernel launch オーバーヘッドの削減、GPU メモリ帯域幅利用率の最大化、prefill 操作の最適化など——によるものです。

結論

AMD GPU におけるソフトウェア最適化は、オープンソースソフトウェアで完結するものではありません。また、InferenceMAX で公開されている数値はハードウェアの性能限界を示すものでもありません。本評価では、より深いソフトウェア最適化により、AMD MI300X が DeepSeek R1 FP8 推論において エンドツーエンドレイテンシで 1.47 倍の改善、GPU あたりスループットで 1.47 倍の改善 を達成できることを実証しました——現在公開されている InferenceMAX のベースラインとの比較です。

推論効率の 1 パーセントポイントの向上は、オープンウェイトモデルを大規模に提供する CSP や企業にとって、トークン単価の直接的なコスト削減につながります。Moreh は、AMD インフラの導入を検討する組織にとって、同じハードウェアから最大限の性能を引き出す実績あるソフトウェアパートナーとなれます。当社は AMD GPU における推論性能の限界を押し広げ続け、より多くの組織が AMD インフラの価値を最大限に実現できるよう取り組んでまいります。

Moreh の推論最適化の詳細については、 moreh.io および docs.moreh.io をご覧ください。

Moreh が AMD MI300X の潜在能力を引き出す：DeepSeek R1 推論で SGLang (InferenceMAX) より 1.5 倍高速