Moreh vLLM Performance Evaluation: DeepSeek V3/R1 671B on AMD Instinct MI300X GPUs

概要

Morehは、事前学習から推論まで、さまざまなAIワークロードをNVIDIA以外のアクセラレータ上で効率的に実行するためのソフトウェアを開発しており、特にAMD GPUに注力しています。

vLLMは、研究、企業、本番環境でLLMサービスを運用するために最も広く採用されている推論エンジンの1つです。学術界と産業界の貢献による強力なオープンソースコミュニティによって開発されており、さまざまなモデル、ハードウェア、最適化技術を幅広くサポートしています。AMDもvLLMがAMD GPUおよびROCmソフトウェアスタック上で動作するようプロジェクトに貢献しています。それにもかかわらず、vLLMのほとんどの最適化は依然としてNVIDIA GPUを対象としており、AMD GPUハードウェアの性能はまだ十分に活用されていません。

Moreh vLLMは、AMD GPU上で優れたLLM推論性能を提供するよう設計されたvLLMの最適化バージョンです。オリジナルのvLLMと同じモデルおよび機能をサポートしながら、AMD CDNAアーキテクチャ上での計算性能を最大化します。これは、Moreh独自の計算・通信ライブラリ、モデルレベルの最適化、およびvLLMエンジンレベルの修正によって実現されています。

本技術レポートでは、現在最も先進的なオープンソースLLMの1つであるDeepSeek V3/R1 671BモデルのMoreh vLLM上での推論性能を評価します。さまざまな入出力長と同時実行レベルで包括的なテストを実施しました。オリジナルのvLLMと比較して、Moreh vLLMは平均1.68倍高いスループット（1秒あたりの総出力トークン数）を達成します。さらに、レイテンシ指標（最初のトークンまでの時間および出力トークンあたりの時間）をそれぞれ平均1.75倍、1.70倍短縮します。結論として、Moreh vLLMを採用することで、AMD MI300シリーズGPUの潜在能力を最大限に引き出し、効率的な推論システムとして活用することが可能になります。

AMD Instinct MI300X GPU

AMD Instinct MI300X GPUは、NVIDIAのH100に対する有力な代替選択肢です。H100と比較して、1.32倍の理論計算性能、2.4倍のメモリ容量、1.58倍のピークメモリ帯域幅を提供します。特に、大幅に大きいメモリ容量と帯域幅はLLM推論の最適化において大きな利点です。Table 1でハードウェア仕様の詳細を比較しています。

Table 1. Comparison between NVIDIA H100 and AMD MI300X — Table 1. NVIDIA H100とAMD MI300Xの比較

AMDはMI300Xの後継としてMI325XおよびMI355Xもリリースしており、それぞれNVIDIAのH200およびB200 GPUの直接的な競合製品です。これらの次世代モデルもAMD CDNA3アーキテクチャに基づいているため、Moreh vLLM内のすべての最適化はシームレスに適用され続けます。近い将来、MI325XおよびMI355Xでの性能評価結果を公開する予定であり、開発・テストサーバーを提供いただけるパートナーを常に歓迎しています。

DeepSeek V3/R1 671Bの最適化

Moreh vLLMは、DeepSeek 671Bモデルの性能を向上させるため、以下を含む多数の最適化を組み込んでいます：

最適なGEMMおよびAttentionカーネルの選択：さまざまなシナリオ（例：異なる入出力シーケンス長やバッチサイズ）で一貫して高い性能を達成するため、Moreh vLLMはオンラインプロファイリングや手動チューニングなしに最適なGEMMおよびAttentionカーネルを動的に選択します。
Fused MoEカーネルの最適化：AMDのAITERライブラリを上回る性能を発揮する高度に最適化されたfused MoEカーネルを実装しており、特に小さなバッチサイズで効果的です。
FP8 KV Cacheサポート：Moreh vLLMには、KV cacheをFP8形式で保存・ロードできるMulti-head Latent Attention (MLA) カーネルが含まれています。この最適化は、特に長いコンテキストのシナリオで性能を大幅に向上させます。
垂直・水平カーネル融合：Moreh vLLMは垂直融合（例：fused RoPEカーネル）と水平融合（例：shared expertにおける複数GEMMの統合）の両方を活用し、カーネル起動オーバーヘッドを削減して計算効率を向上させます。
vLLMエンジンレベルの修正：AMD GPUをより効率的に活用するため、vLLMエンジンレベルで修正を行っており、効率化されたカーネル実行のためのHIPグラフの活用が含まれます。

実験設定

すべての実験は、以下のように構成されたMI300Xサーバー上で実施されました：

Server: Lenovo ThinkSystem SR685a V3
CPU: 2x AMD EPYC 9534 (128 cores in total, 2.45 GHz)
GPU: 8x AMD Instinct MI300X OAM
Main Memory: 2,304 GB (24x 96 GB)
Operating System: Ubuntu 22.04.4 (Linux kernel 5.15.0-25-generic)
ROCm Version: 6.8.5

比較のベースラインとして、オープンソースのvLLM 0.9.2（https://github.com/ROCm/vllmのv0.9.2タグ）を使用しました。これはテスト時点で利用可能な最新バージョンでした。DeepSeekモデルは、tensor parallelism (TP) 8でサーバーの8つのGPUにわたって並列実行されました。AMD MI300Xの192 GBの大容量メモリにより、GPU当たりFP8形式で約840億のパラメータを格納しても、GPUメモリの半分以上が利用可能な状態で残ります。これにより、サーバーは高い同時実行で多数のリクエストを処理でき、大規模生成AIワークロードにおける大きな利点を示しています。性能はvLLMのbenchmark_servingツールを使用して測定しました。Table 2に示すように、入力シーケンス長（ISL）、出力シーケンス長（OSL）、同時実行数の70通りの組み合わせを選択しました。実験設定は韓国のお客様の1社との協議を通じて決定されました。

Table 2. Various request patterns used for performance measurement — Table 2. 性能測定に使用されたさまざまなリクエストパターン

Output TPS、TTFT、TPOT

Output tokens per second (TPS)、time to first token (TTFT)、time per output token (TPOT) は、LLM推論の性能を評価するための3つの主要指標です。Output tokens per secondはシステム全体のスループットを測定し、すべての同時リクエストにわたってモデルが1秒間に生成できるトークン数を示します。Time to first tokenは初期レイテンシ、すなわちリクエストが送信されてから最初のトークンが生成されるまでの時間を捕捉します。Time per output tokenは、最初のトークン以降の各トークンを生成するのにかかる平均時間を示します。Output tokens per secondはサービスコスト（トークンあたりの料金）に直結します。後者の2つの指標はユーザーが体感する応答性にとって重要です。これら3つの指標を総合的に測定することで、コストとユーザー体験のバランスをとった推論性能の包括的な評価が可能になります。

Figure 1はoutput tokens per secondの比較グラフです。Figure 2とFigure 3はそれぞれ平均time to first tokenと平均time per output tokenの比較グラフです。生データは付録に記載されています。

Moreh vLLMは、オリジナルのvLLMと比較して1.68倍高い総output tokens per second、1.75倍低いtime to first token、1.7倍低いtime per output tokenを達成しています。これは、同じAMD MI300シリーズGPUシステム上でソフトウェアをMoreh vLLMに置き換えるだけで、コストを削減しながらユーザー体験を向上させることができることを示しています。

Figure 1. Output tokens per second for various request patterns. Higher is better. Moreh vLLM shows an average of 1.68x higher performance. — Figure 1. さまざまなリクエストパターンに対するoutput tokens per second。高いほど良好。Moreh vLLMは平均1.68倍高い性能を示しています。

Figure 2. Mean time to first token for various request patterns. Lower is better. Moreh vLLM shows an average of 1.75x lower latency. — Figure 2. さまざまなリクエストパターンに対する平均time to first token。低いほど良好。Moreh vLLMは平均1.75倍低いレイテンシを示しています。

Figure 3. Mean time per output token for various request patterns. Lower is better. Moreh vLLM shows an average of 1.70x lower latency. — Figure 3. さまざまなリクエストパターンに対する平均time per output token。低いほど良好。Moreh vLLMは平均1.70倍低いレイテンシを示しています。

レイテンシとスループットのトレードオフ

LLM推論には、レイテンシとスループットの間に本質的なトレードオフが存在します。vLLMインスタンスの最大同時実行数を増やすとスループットは向上しますがレイテンシも増加し、同時実行数を減らすとレイテンシは改善しますがスループットは低下します。Figure 4は、さまざまなリクエストパターン（入出力シーケンス長）に対するオリジナルvLLMとMoreh vLLMのレイテンシ-スループット・トレードオフ曲線を示しています。全体として、グラフが左上に近いほど、より優れた性能特性を示します。

Figure 4. Trade-off curves between time per output token (latency) and output tokens per second (throughput), for different input/output sequence lengths. — Figure 4. 異なる入出力シーケンス長に対するtime per output token（レイテンシ）とoutput tokens per second（スループット）間のトレードオフ曲線。

結論

Moreh vLLMは、独自のGPUライブラリ、モデルレベルの最適化、vLLMエンジンの修正を含むさまざまな技術を取り入れ、DeepSeek V3/R1モデルの推論を最適化しています。その結果、Moreh vLLMはさまざまな推論指標において、オリジナルのオープンソースvLLMと比較して大幅な性能向上を実現しています。AMD MI300シリーズGPUサーバー上でMoreh vLLMを採用することで、LLMサービスはコストを削減しながら同時にレイテンシを改善することができます。Morehはまた、お客様独自のAIモデルをAMD GPU上で最適化し、そのためのオンデマンドvLLMを提供するサービスも展開しています。

付録：生データ

（PDFファイルをご参照ください。）

AMD Instinct MI300X GPUにおけるMoreh vLLM性能評価：DeepSeek V3/R1 671B

概要