主要な差別化要素
1つのクラスター、すべてのGPU
多くの推論スタックは単一ベンダーに依存します。MoAI Inference Frameworkはその制約を解消します — 異なるベンダーのチップ間でPrefillとDecodeを分離し、レガシーGPUの残存価値を活用し、非GPUアクセラレータも同一クラスターに追加できます。各デバイスは最も得意な処理を実行します。
1.7×
クロスベンダー PDディスアグリゲーションのスループット
0
混合ベンダー 統合ルーティングのオーバーヘッド
統合APIエンドポイント
ルーター / スケジューラー
NVIDIA
AMD
Tenstorrent
コア機能
自動 ディスアグリゲーション
効率的な分散推論には、複数の技術の組み合わせ、GPUリソースの最適な割り当て、インテリジェントなリクエストスケジューリングが必要です。MoAI Inference Frameworkは、定義されたSLOとリアルタイムのトラフィックパターンに基づいて、これらすべてを自動化します。
01
SLO駆動最適化
レイテンシ制約を指定すると、フレームワークが自動的に最適な並列化戦略とリソース割り当てを決定し、コストあたりのスループットを最大化します。
02
Prefill-Decodeディスアグリゲーション
ヘテロジニアスGPUタイプを含む異なるGPUプール間でPrefillフェーズとDecodeフェーズを分離し、各ワークロード特性に合わせてリソース活用を最適化します。
03
プレフィックスキャッシュ対応ルーティング
事前にキャッシュされたプレフィックス計算を持つインスタンスにリクエストをルーティングし、TTFTを最大20倍短縮、サーバーの40%で2.2倍のスループットを達成します。
04
リクエスト長ベースルーティング
受信リクエストを予想される長さで分類し、各ワークロードプロファイルに最適化されたGPUプールにルーティングします — 短いプロンプトはレイテンシ最適化インスタンスに、長いコンテキストはスループット最適化インスタンスに送られます。
05
オートスケーリング
トラフィックパターンに応じて推論キャパシティを自動的に拡張・縮小し、最適なリソース活用とコスト効率を実現します。
アーキテクチャ
Kubernetes Native
MoAI Inference FrameworkはKubernetesネイティブコントローラーのセットとして動作します — サイドカーデーモンや独自のコントロールプレーンは不要です。Helmでデプロイし、Istioを含むGateway API Inference Extension対応コントローラーで公開し、NFDがフリート全体のヘテロジニアスアクセラレータを自動検出します。
対応モデル
MoAI Inference Frameworkは、基盤となるサービングエンジン(Moreh vLLM、vLLM、SGLangなど)がサポートするすべてのモデルと互換性があります。主要なオープンソースLLMを含みます:
対応ハードウェア
アクセラレータ
ネットワーキング