Solution

1つの推論クラスター、すべてのGPU

AIデータセンターは調達サイクルに沿って、異なるベンダー、アーキテクチャ、世代のGPUが蓄積されます。従来のソフトウェアではこれらを統合して運用できず、旧世代GPUはアイドル状態になり、単一ベンダーに依存することになります。Morehのソフトウェアはすべてのチップを単一の推論システムに統合します。

3つのシナリオ、1つのプラットフォーム

シナリオ 1

e.g., H100 + B200

旧世代GPUを再活用 — 新世代GPUからタスクをオフロードし、投機的デコーディングの効率を高めて、すべての世代がクラスターのスループットに貢献します。

シナリオ 2

e.g., H200 + MI355X

単一のAPIエンドポイントからNVIDIAとAMD GPUにまたがって推論をルーティングし、ベンダー間でPrefillとDecodeを分離してさらに高いスループットを実現します。

シナリオ 3

e.g., GPU + Tenstorrent

GPUとTenstorrentチップなどの専用AIアクセラレータを混合し、各ワークロードで最も優れたデバイスを活用します。

これらすべての機能は MoAI Inference Framework に組み込まれており、クラスター規模でヘテロジニアスGPUをオーケストレーションする単一プラットフォームです。

大規模モデルは新世代GPUに、小規模モデルは旧世代GPUに

モデルサイズとハードウェア性能に基づいて、最適なGPUプールにモデルを自動的に割り当てます — 最新世代GPUでフラグシップモデルを実行し、旧世代GPUは軽量モデルを処理します。

ベンダーAでPrefill、ベンダーBでDecode

NVIDIA GPUでPrefillを、AMD GPUでDecodeを実行し、同一ベンダー構成比1.7倍のスループットを達成します。RoCEを介した直接GPU間データ転送のためのクロスベンダーRDMA通信ライブラリにより実現されます。

コンピュートリッチなGPUでPrefill、高帯域幅GPUでDecode

各推論フェーズをプロファイルに適したGPUにマッチングします — コンピュート集約的なPrefillは一方のチップで、帯域幅集約的なDecodeはもう一方で処理。H100 + H20やMI300X + MI308Xなど、同一ベンダー内のチップバリアント間でも動作します。

短いシーケンスは旧世代GPUに、長いシーケンスは新世代GPUに

受信リクエストをシーケンス長に応じて、処理に最適なGPUプールにルーティングします — 旧世代GPUは短いワークロードで生産性を維持し、新世代GPUはロングコンテキストリクエストを処理します。

旧世代GPUでPrefill、新世代GPUでDecode

ロングコンテキストのPrefillを複数の旧世代GPUノードに分散し、新世代GPUがDecodeに集中できるようにします。

旧世代GPUでDraftモデルをトレーニング、新世代GPUでより高速なDecode

旧世代GPUでDraftモデルを継続的に改善し、新世代GPUでの投機的デコーディング効率を向上させます — すべての世代を有効活用します。

すべてのアクセラレータを自動的に検出・分類

Kubernetes Node Feature Discoveryによる自動GPU検出・分類と、検出されたすべてのアクセラレータにわたる統合ルーティングを提供します。

ヘテロジニアスインフラへのMoAI Inference Frameworkのデプロイについて、チームにご相談ください。