Distributed Inference on Heterogeneous Accelerators Including GPUs, Rubin CPX, and AI Accelerators

推論コストの削減は、すべてのAIデータセンターとサービス企業にとって中核的な課題の一つとなっています。GPUカーネルからモデルアーキテクチャに至るまで、あらゆるレイヤーで計算量を削減しGPU利用率を向上させるための多様な技術が考案されています。

最も注目すべきトピックの一つが、クラスタレベルの分散推論です。以前は、推論の最適化は主に単一GPUまたは単一ノードでの良好なパフォーマンスの達成に焦点を当てていました。クラスタレベルでは、ロードバランサーを使用してリクエストをノード間で均等に分配するだけでした。しかし現在、モデルとリクエストが複数のGPUノードにどのように分配されるかが、全体的なGPU利用率に決定的な影響を与えることが認識されつつあります。disaggregationやsmart routingなどの分散推論技術を効果的に適用することで、与えられたインフラの同時処理能力を2〜10倍に向上させることが可能です。これにより、AIサービスのコスト、すなわちトークンあたりのコストが大幅に削減されます。

Per-node inference and distributed inference. — ノード単位の推論と分散推論。

分散推論が今重要な理由

分散推論が重要になった主な理由は、AIデータセンターが処理しなければならない推論ワークロードの多様性が増大しているためです。基盤となるLLMはますます大規模かつ複雑になっています。特に、DeepSeek R1やGPT-OSSなどのMixture of Experts (MoE)モデルが普及するにつれ、モデルdisaggregationがパフォーマンスにおいて重要な役割を果たし始めています。DeepSeekは、効率的なクロスノードExpert Parallelism (EP)を通じて671B MoEモデルを低コストで提供するソフトウェアアーキテクチャを公開しています。

AIコーディングアシスタントのようなロングコンテキスト推論を必要とするアプリケーションが増え続ける中、受信する各リクエストのシーケンス長は非常に可変的になっています。異なるパフォーマンス特性を持つprefillとdecodeフェーズの両方が、全体的なパフォーマンスの重要な要因となっています。このため、prefillとdecodeフェーズに適切な数のGPUを割り当て、各フェーズに異なる並列化・最適化戦略を適用し、各フェーズごとにリクエストを異なる方法でスケジューリングすることがますます重要になっています。さらに、KV cacheのヒット率も全体的なパフォーマンスにおける重要な要因となっています。

最後に、状況に応じて複数のマルチモーダルモデルが動的に呼び出されるマルチモデルエージェントワークフローがますます一般的になっています。その結果、異なるモデル間でGPUを効率的に割り当て、幅広いアプリケーションに対するサービスレベル目標（SLO）を確保することが困難な問題となっています。データセンターは、複雑なGPUハードウェアのパフォーマンス特性を理解しながら、スループットの向上、レイテンシの削減、公平性の保証など、相反する指標を最適化するという困難な課題に直面しています。

MoAI Inference Framework

分散推論は、prefill-decode、expert parallelization、KV cache aware routingなどの個別のdisaggregationやrouting技術を単に適用することを意味しません。より大きな課題は、特定のシステムで意味のあるパフォーマンス向上を達成するために、複数の技術を効果的に組み合わせることにあります。現在、多くのオープンソースプロジェクトが個別の分散推論技術をサポートしていますが、それらを統合し実際のインフラにデプロイすることは依然として手作業に依存しています。

ソリューションとして、MorehはMoAI Inference Frameworkを提供します。このフレームワークは、NVIDIA GPUだけでなく、AMD GPUやTenstorrent AIアクセラレータで構成されるクラスタシステムでも効率的な分散推論を可能にするよう設計されています。独自のcost modelを活用し、データセンター内の多数のアクセラレータを活用する最適な方法を自動的に特定、適用、動的に調整します。今日の最も複雑なAIワークロード環境においても、より高速な推論速度、より高いリソース利用率、より優れたコスト効率を同時に実現します。

AIデータセンターにおける異種Acceleratorの混合運用

分散推論の重要性が増す論理的帰結として、より多くのAIデータセンターが異なるタイプのacceleratorを混合して全体的な計算効率を最大化しようとするでしょう。これは自然なことです。なぜなら、あらゆる多様な推論ワークロードに対して最適な単一のacceleratorは存在しないからです。例えば、prefillとdecodeフェーズ、短い入力シーケンスと長い入力シーケンス、言語モデルと動画生成モデルでは、最適なacceleratorが異なる可能性があります。

NVIDIAが最近発表したRubin CPXもこのトレンドに合致しています。このチップはメモリ帯域幅よりも計算性能を重視し、HBMの代わりにGDDR7メモリを採用しています。具体的には、メモリ帯域幅はわずか2 TB/sで、20.5 TB/sを提供するRubin GPU (VR200)のわずか10%です。しかし、FP4性能は20.0 PFLOPSに達し、Rubin GPUの33.3 PFLOPSの約60%です。

NVIDIA's Vera Rubin NVL144 CPX system containing 72 Rubin GPUs and 144 Rubin CPX. (Source: NVIDIA Newsroom) — 72基のRubin GPUと144基のRubin CPXを搭載するNVIDIAのVera Rubin NVL144 CPXシステム。（出典：NVIDIA Newsroom）

NVIDIAのVera Rubin NVL144 CPXのようなCPXとGPUの両方を統合したクラスタシステムは、これらのパフォーマンスの違いをさまざまな方法で活用できます。最も基本的には、LLM推論において、計算バウンドなprefillフェーズをCPXで実行し、メモリバウンドなdecodeフェーズをGPUで実行できます。これがNVIDIAがCPXについて公開したユースケースです。しかし、それ以外にも多くの可能性があります。例えば、比較的計算バウンドな動画生成モデルをCPXで実行し、メモリバウンドな言語モデルをGPUで実行することが考えられます。あるいは、単一モデル内でFFNレイヤーをCPXにオフロードし、AttentionレイヤーをGPUで実行する、Attention-FFN disaggregation技術の拡張も可能です。もう一つのアプローチは、小さなバッチサイズでは主にGPUに依存しつつ、バッチサイズが大きくなるにつれてCPXにより多くの処理を割り当てることです。

NVIDIAのGPUとCPXの組み合わせ以外にも、異種クラスタを構築するための多くの構成が考えられます。例えば、大規模データセンターでは、異なる世代のNVIDIA GPUを混合することは一般的な慣行です。もう一つの選択肢は、NVIDIA GPUとAMD GPUを組み合わせることです。これは単一ハードウェアベンダーへのロックインを防ぐだけでなく、AMD GPUがメモリバウンドなワークロードにおいて同世代のNVIDIA GPUよりも優れたパフォーマンスを発揮するという事実を活用できます。さらに、GPUをTenstorrent AIアクセラレータと混合することも可能です。Tenstorrent WormholeおよびBlackholeプロセッサはGDDR6メモリを使用し、CPXと同様に計算バウンドなワークロードに適しています。

異種Acceleratorにおける分散推論のソフトウェア課題

しかし、これを実際に実現するには、重大なソフトウェア上の課題が伴います。異なるacceleratorアーキテクチャに対して計算が十分に最適化されなければなりません。異種accelerator間で高帯域幅・低レイテンシの通信を実現する必要があります。異なるベンダーのデバイス間のRDMA通信は物理的には可能ですが、ソフトウェアレベルで多くの障壁に直面します。

最も重要なことは、異種accelerator間での効率的なモデルdisaggregation、ワークロード分配、スケーリングが最大の課題であるということです。2つのワークロードを2つのacceleratorタイプに分割するだけでは、真の効率性を達成するには不十分です。例えば、Vera Rubin NVL144クラスタシステムでは、CPXとGPUは2:1の比率で設置されています。しかし、prefillとdecodeフェーズの比率は固定されておらず、正確に2 CPX : 1 GPUになる保証もありません。ソフトウェアレベルでの動的リソース割り当てがなければ、アイドルリソースが必然的に発生します。複数のマルチモーダルモデルを同時にサービングしなければならない場合、問題はさらに複雑になります。

MoAI Inference Frameworkは、異種accelerator環境でその真価を発揮します。cost modelに基づく自動化された分散推論により、異種acceleratorを動的かつ効果的に協調して活用できます。また、RoCEネットワークで接続された異なるベンダーのハードウェア間でRDMA通信を可能にする通信ライブラリも含まれています。Moreh vLLMはMoAI Inference Frameworkのバックエンドであり、AMD GPUおよびTenstorrent AIアクセラレータ向けのライブラリレベルおよびモデルレベルの最適化を統合し、その潜在能力を最大限に引き出し、NVIDIA GPUに匹敵する、あるいはそれを上回るパフォーマンスを実現します。

ケーススタディ：AMD MI300XとMI308X GPU間のDisaggregation

MoAI Inference Frameworkを使用して異種accelerator間で分散推論を適用した実際のケースを紹介します。AMDのMI308X GPUは、オリジナルのMI300X GPUのバリエーションです。MI308Xのメモリ帯域幅はMI300Xと同じ5.3 TB/sですが、FP8計算性能はわずか0.47 PFLOPS — MI300Xの2.6 PFLOPSのわずか18%です。GPUとCPXの関係と同様に、このパフォーマンスの違いにより、MI300Xは計算バウンドなprefillフェーズでより有利であり、MI308Xはメモリバウンドなdecodeフェーズでより効率的です。

An example of the prefill-decode disaggregation between AMD MI300X and MI308X GPUs. In the output throughput experiments, input length = 31744, output length = 1024, with concurrency = 8 for single-server tests and concurrency = 24 for the cluster-level test. — AMD MI300XとMI308X GPU間のprefill-decode disaggregationの例。Output throughput実験では、input length = 31744、output length = 1024、単一サーバーテストではconcurrency = 8、クラスタレベルテストではconcurrency = 24。

MI300Xサーバー1台（GPU 8基）とMI308Xサーバー2台（GPU各8基）で構成されるクラスタ上で、MoAI Inference Frameworkを使用してprefill-decode disaggregationを適用しました。disaggregationなしでDeepSeek R1 671Bモデルをエンドツーエンドで実行した場合、MI300Xサーバーは105.16 tokens/secのoutput throughputを達成し、MI308Xサーバーは30.42 tokens/secでした。これらのサーバーを単純にロードバランサーで接続した場合、クラスタ全体のoutput throughputはわずか166.00 tokens/secに留まります。しかし、prefillフェーズをMI300Xサーバーで、decodeフェーズをMI308Xサーバーで分離実行することにより、合計output throughputは253.59 tokens/secに増加し、約53%の改善を達成しました。

結論

マルチモーダルおよびAgentic AI時代の到来は、従来の単一モデル・単一サーバー推論システムの根本的な見直しを必要としています。同時に、NVIDIAによるRubin CPXプロセッサの発表は、パフォーマンス特性に応じた異種acceleratorを活用する分散推論技術に注目を集めました。

MoAI Inference Frameworkは、実際のAIデータセンターで分散推論を実装するための最良の選択肢です。AMD GPUやTenstorrentプロセッサを含む非NVIDIA acceleratorで最適なパフォーマンスを提供し、（部分的な）モデルとワークロードを異種acceleratorに分配する困難かつ複雑なタスクを自動化します。

ここで紹介したケーススタディ以上の結果をご覧になりたい場合、またはMoAI Inference Frameworkを実際にお試しになりたい場合は、contact@moreh.ioまでお問い合わせください。

GPU、Rubin CPX、AIアクセラレータを含む異種Acceleratorにおける分散推論

分散推論が今重要な理由

MoAI Inference Framework

AIデータセンターにおける異種Acceleratorの混合運用

異種Acceleratorにおける分散推論のソフトウェア課題

ケーススタディ：AMD MI300XとMI308X GPU間のDisaggregation

結論