MoAI Inference Framework

データセンター規模の分散推論を自動化

ベンダー、世代、アーキテクチャに関係なく、すべてのGPUで大規模モデルを単一APIエンドポイントからサービングできます。MoAI Inference Frameworkが自動的にリソースを割り当て、リクエストをルーティングし、キャパシティをスケーリングして、クラスターが最低レイテンシで最大スループットを提供します。

デモを依頼ドキュメントを見る

主要な差別化要素

1つのクラスター、すべてのGPU

多くの推論スタックは単一ベンダーに依存します。MoAI Inference Frameworkはその制約を解消します — 異なるベンダーのチップ間でPrefillとDecodeを分離し、レガシーGPUの残存価値を活用し、非GPUアクセラレータも同一クラスターに追加できます。各デバイスは最も得意な処理を実行します。

1.7×

クロスベンダー PDディスアグリゲーションのスループット

混合ベンダー統合ルーティングのオーバーヘッド

シナリオを見る ›

統合APIエンドポイント

パフォーマンスゲートウェイ

NVIDIA

AMD

Tenstorrent

…

クロスベンダーソフトウェアファブリック

コア機能

自動ディスアグリゲーション

効率的な分散推論には、複数の技術の組み合わせ、GPUリソースの最適な割り当て、インテリジェントなリクエストスケジューリングが必要です。MoAI Inference Frameworkは、定義されたSLOとリアルタイムのトラフィックパターンに基づいて、これらすべてを自動化します。

SLO駆動最適化

レイテンシ制約を指定すると、フレームワークが自動的に最適な並列化戦略とリソース割り当てを決定し、コストあたりのスループットを最大化します。

Prefill-Decodeディスアグリゲーション

ヘテロジニアスGPUタイプを含む異なるGPUプール間でPrefillフェーズとDecodeフェーズを分離し、各ワークロード特性に合わせてリソース活用を最適化します。

プレフィックスキャッシュ対応ルーティング

事前にキャッシュされたプレフィックス計算を持つインスタンスにリクエストをルーティングし、TTFTを最大20倍短縮、サーバーの40%で2.2倍のスループットを達成します。

リクエスト長ベースルーティング

受信リクエストを予想される長さで分類し、各ワークロードプロファイルに最適化されたGPUプールにルーティングします — 短いプロンプトはレイテンシ最適化インスタンスに、長いコンテキストはスループット最適化インスタンスに送られます。

オートスケーリング

トラフィックパターンに応じて推論キャパシティを自動的に拡張・縮小し、最適なリソース活用とコスト効率を実現します。

アーキテクチャ

Kubernetes Native

MoAI Inference FrameworkはKubernetesネイティブコントローラーのセットとして動作します — サイドカーデーモンや独自のコントロールプレーンは不要です。Helmでデプロイし、Istioを含むGateway API Inference Extension対応コントローラーで公開し、NFDがフリート全体のヘテロジニアスアクセラレータを自動検出します。

Kubernetes NativeGateway API Inference ExtensionIstio CompatibleHelm ChartsNFD IntegrationRoCE Networking