Solution
1つの推論クラスター、すべてのGPU
AIデータセンターは調達サイクルに沿って、異なるベンダー、アーキテクチャ、世代のGPUが蓄積されます。従来のソフトウェアではこれらを統合して運用できず、旧世代GPUはアイドル状態になり、単一ベンダーに依存することになります。Morehのソフトウェアはすべてのチップを単一の推論システムに統合します。
3つのシナリオ、1つのプラットフォーム
旧世代 + 新世代
e.g., H100 + B200
旧世代GPUを再活用 — 新世代GPUからタスクをオフロードし、投機的デコーディングの効率を高めて、すべての世代がクラスターのスループットに貢献します。
NVIDIA + AMD
e.g., H200 + MI355X
単一のAPIエンドポイントからNVIDIAとAMD GPUにまたがって推論をルーティングし、ベンダー間でPrefillとDecodeを分離してさらに高いスループットを実現します。
GPU + AIアクセラレータ
e.g., GPU + Tenstorrent
GPUとTenstorrentチップなどの専用AIアクセラレータを混合し、各ワークロードで最も優れたデバイスを活用します。
基盤技術
これらすべての機能は MoAI Inference Framework に組み込まれており、クラスター規模でヘテロジニアスGPUをオーケストレーションする単一プラットフォームです。
モデル対応GPU配置
大規模モデルは新世代GPUに、小規模モデルは旧世代GPUに
モデルサイズとハードウェア性能に基づいて、最適なGPUプールにモデルを自動的に割り当てます — 最新世代GPUでフラグシップモデルを実行し、旧世代GPUは軽量モデルを処理します。
クロスベンダーPrefill-Decodeディスアグリゲーション
ベンダーAでPrefill、ベンダーBでDecode
NVIDIA GPUでPrefillを、AMD GPUでDecodeを実行し、同一ベンダー構成比1.7倍のスループットを達成します。RoCEを介した直接GPU間データ転送のためのクロスベンダーRDMA通信ライブラリにより実現されます。
ワークロード対応Prefill-Decodeディスアグリゲーション
コンピュートリッチなGPUでPrefill、高帯域幅GPUでDecode
各推論フェーズをプロファイルに適したGPUにマッチングします — コンピュート集約的なPrefillは一方のチップで、帯域幅集約的なDecodeはもう一方で処理。H100 + H20やMI300X + MI308Xなど、同一ベンダー内のチップバリアント間でも動作します。
詳しく見る ›リクエスト長ベースルーティング
短いシーケンスは旧世代GPUに、長いシーケンスは新世代GPUに
受信リクエストをシーケンス長に応じて、処理に最適なGPUプールにルーティングします — 旧世代GPUは短いワークロードで生産性を維持し、新世代GPUはロングコンテキストリクエストを処理します。
マルチノードPrefillエンジン(SLOPE)
旧世代GPUでPrefill、新世代GPUでDecode
ロングコンテキストのPrefillを複数の旧世代GPUノードに分散し、新世代GPUがDecodeに集中できるようにします。
詳しく見る ›オンラインDraftモデルトレーニング
旧世代GPUでDraftモデルをトレーニング、新世代GPUでより高速なDecode
旧世代GPUでDraftモデルを継続的に改善し、新世代GPUでの投機的デコーディング効率を向上させます — すべての世代を有効活用します。
詳しく見る ›Kubernetes NFD自動検出
すべてのアクセラレータを自動的に検出・分類
Kubernetes Node Feature Discoveryによる自動GPU検出・分類と、検出されたすべてのアクセラレータにわたる統合ルーティングを提供します。
GPUフリートを統合する準備はできましたか?
ヘテロジニアスインフラへのMoAI Inference Frameworkのデプロイについて、チームにご相談ください。