Moreh vLLM Performance Evaluation: Llama 3.3 70B on AMD Instinct MI300X GPUs

概要

Moreh は、事前学習から推論まで、さまざまな AI ワークロードを NVIDIA 以外のアクセラレータ、特に AMD GPU 上で効率的に実行するためのソフトウェアを開発しています。

vLLM は、研究、企業、本番環境で LLM サービスを運用するために最も広く採用されている推論エンジンの一つです。学術界と産業界からの貢献を受け、強力なオープンソースコミュニティが開発を推進しており、さまざまなモデル、ハードウェア、最適化技術を幅広くサポートしています。AMD も vLLM が AMD GPU と ROCm ソフトウェアスタック上で動作するようプロジェクトに貢献しています。それにもかかわらず、vLLM のほとんどの最適化は依然として NVIDIA GPU を対象としており、AMD GPU ハードウェアの性能は十分に活用されていません。

Moreh vLLM は、AMD GPU 上で優れた LLM 推論性能を提供するために設計された、最適化版の vLLM です。オリジナルの vLLM と同じモデルと機能をサポートしながら、AMD CDNA アーキテクチャ上で計算性能を最大化します。これは、Moreh 独自の計算・通信ライブラリ、モデルレベルの最適化、vLLM エンジンレベルの変更によって実現されています。

本技術レポートでは、Moreh vLLM 上での Meta の Llama 3.3 70B モデルの推論性能を評価します。さまざまな入力/出力長と同時接続数にわたって包括的なテストを実施しました。オリジナルの vLLM と比較して、Moreh vLLM は平均 1.68 倍高いスループット（総出力トークン/秒）を達成します。さらに、レイテンシ指標（最初のトークンまでの時間および出力トークンあたりの時間）をそれぞれ平均 2.02 倍、1.59 倍削減しました。結論として、Moreh vLLM を導入することで AMD MI300 シリーズ GPU の潜在能力を最大限に引き出し、効率的な推論システムとして活用できます。

AMD Instinct MI300X GPU

AMD Instinct MI300X GPU は NVIDIA H100 の有力な代替製品です。H100 と比較して、1.32 倍高い理論演算性能、2.4 倍大きなメモリ容量、1.58 倍高いピークメモリ帯域幅を提供します。特に、大幅に大きなメモリ容量と帯域幅は、LLM 推論の最適化における大きな利点となります。表 1 では詳細なハードウェア仕様を比較しています。

AMD は MI300X の後継製品として MI325X と MI355X もリリースしており、それぞれ NVIDIA の H200 および B200 GPU と直接競合する製品です。これらの次世代モデルも AMD CDNA3 アーキテクチャに基づいているため、Moreh vLLM のすべての最適化がシームレスに適用され続けます。近い将来、MI325X および MI355X の性能評価結果を公開する予定であり、開発・テスト用サーバーを提供いただけるパートナーを常に歓迎しています。

実験環境

すべての実験は、以下の構成の MI300X サーバー上で実施されました：

Server: Lenovo ThinkSystem SR685a V3
CPU: 2x AMD EPYC 9534 (128 cores in total, 2.45 GHz)
GPU: 8x AMD Instinct MI300X OAM
Main Memory: 2,304 GB (24x 96 GB)
Operating System: Ubuntu 22.04.4 (Linux kernel 5.15.0-25-generic)
ROCm Version: 6.8.5

比較のベースラインとして、オープンソースの vLLM 0.9.2（https://github.com/ROCm/vllm の v0.9.2 タグ）を使用しました。これはテスト時点で利用可能な最新バージョンでした。Llama 3.3 70B モデルは、サーバーの GPU 2 基で tensor parallelism (TP) 2 により並列実行されました。性能の測定には vLLM の benchmark_serving ツールを使用しました。表 2 に示すように、入力シーケンス長 (ISL)、出力シーケンス長 (OSL)、同時接続数の 64 種類の異なる組み合わせを選択しました。実験設計は韓国のお客様との協議を通じて決定されました。

Output TPS、TTFT、TPOT

Output tokens per second (TPS)、time to first token (TTFT)、time per output token (TPOT) は、LLM 推論性能を評価するための 3 つの主要指標です。Output tokens per second はシステム全体のスループットを測定し、すべての同時リクエストに対してモデルが 1 秒間に生成できるトークン数を示します。Time to first token は初期レイテンシを測定します — リクエスト送信から最初のトークンが生成されるまでの時間です。Time per output token は、最初のトークン以降の各トークン生成に要する平均時間を示します。Output tokens per second はサービスコスト（トークンあたりのコスト）に直結します。残りの 2 つの指標はユーザーが体感する応答性にとって重要です。これら 3 つの指標を総合的に測定することで、コストとユーザー体験のバランスをとりながら推論性能を包括的に把握できます。

図 1 は output tokens per second の比較グラフです。図 2 と図 3 はそれぞれ平均 time to first token と平均 time per output token の比較グラフです。生データは付録に掲載されています。

Moreh vLLM はオリジナルの vLLM と比較して、1.68 倍高い総 output tokens per second、2.02 倍低い time to first token、1.59 倍低い time per output token を達成します。特に、長い入力シーケンスに対する time to first token が約 3-4 倍削減されていることが確認できます。これは、同じ AMD MI300 シリーズ GPU システム上でソフトウェアを Moreh vLLM に置き換えるだけで、コストを削減しながらユーザー体験を向上できることを示しています。

図 1. 各種リクエストパターンにおける output tokens per second。高いほど良い。Moreh vLLM は平均 1.68 倍高い性能を示す。

図 2. 各種リクエストパターンにおける平均 time to first token。低いほど良い。Moreh vLLM は平均 2.02 倍低いレイテンシを示す。

図 3. 各種リクエストパターンにおける平均 time per output token。低いほど良い。Moreh vLLM は平均 1.59 倍低いレイテンシを示す。

レイテンシとスループットのトレードオフ

LLM 推論にはレイテンシとスループットの間に本質的なトレードオフが存在します。vLLM インスタンスの最大同時接続数を増やすとスループットは向上しますがレイテンシも増加し、同時接続数を減らすとレイテンシは改善しますがスループットが低下します。図 4 は、各種リクエストパターン（入力/出力シーケンス長）におけるオリジナルの vLLM と Moreh vLLM のレイテンシ-スループットのトレードオフ曲線を示しています。全体として、グラフが左上に移動するほど性能特性が優れています。

図 4. 異なる入力/出力シーケンス長における time per output token（レイテンシ）と output tokens per second（スループット）のトレードオフ曲線。

結論

Moreh vLLM は、独自の GPU ライブラリ、モデルレベルの最適化、vLLM エンジンの変更など、さまざまな技術を活用して Llama 3.3 70B モデルの推論を最適化しています。その結果、Moreh vLLM はさまざまな推論指標においてオリジナルのオープンソース vLLM に対して大幅な性能向上を達成しています。AMD MI300 シリーズ GPU サーバーに Moreh vLLM を導入することで、LLM サービスのコストを削減しながら同時にレイテンシを改善できます。Moreh は、お客様の独自 AI モデルを AMD GPU 上で最適化し、それに対応したカスタム vLLM を提供するサービスも運営しています。

付録：生データ

（PDF ファイルをご参照ください。）

Moreh vLLM 性能評価：AMD Instinct MI300X GPU における Llama 3.3 70B

概要

AMD Instinct MI300X GPU

実験環境

Output TPS、TTFT、TPOT

レイテンシとスループットのトレードオフ

結論

付録：生データ