MoAI Inference Framework

データセンター規模の分散推論を自動化

ベンダー、世代、アーキテクチャに関係なく、すべてのGPUで大規模モデルを単一APIエンドポイントからサービングできます。MoAI Inference Frameworkが自動的にリソースを割り当て、リクエストをルーティングし、キャパシティをスケーリングして、クラスターが最低レイテンシで最大スループットを提供します。

主要な差別化要素

1つのクラスター、すべてのGPU

多くの推論スタックは単一ベンダーに依存します。MoAI Inference Frameworkはその制約を解消します — 異なるベンダーのチップ間でPrefillとDecodeを分離し、レガシーGPUの残存価値を活用し、非GPUアクセラレータも同一クラスターに追加できます。各デバイスは最も得意な処理を実行します。

1.7×

クロスベンダー PDディスアグリゲーションのスループット

0

混合ベンダー 統合ルーティングのオーバーヘッド

シナリオを見る ›

統合APIエンドポイント

ルーター / スケジューラー

NVIDIA

AMD

Tenstorrent

コア機能

自動 ディスアグリゲーション

効率的な分散推論には、複数の技術の組み合わせ、GPUリソースの最適な割り当て、インテリジェントなリクエストスケジューリングが必要です。MoAI Inference Frameworkは、定義されたSLOとリアルタイムのトラフィックパターンに基づいて、これらすべてを自動化します。

01

SLO駆動最適化

レイテンシ制約を指定すると、フレームワークが自動的に最適な並列化戦略とリソース割り当てを決定し、コストあたりのスループットを最大化します。

02

Prefill-Decodeディスアグリゲーション

ヘテロジニアスGPUタイプを含む異なるGPUプール間でPrefillフェーズとDecodeフェーズを分離し、各ワークロード特性に合わせてリソース活用を最適化します。

03

プレフィックスキャッシュ対応ルーティング

事前にキャッシュされたプレフィックス計算を持つインスタンスにリクエストをルーティングし、TTFTを最大20倍短縮、サーバーの40%で2.2倍のスループットを達成します。

04

リクエスト長ベースルーティング

受信リクエストを予想される長さで分類し、各ワークロードプロファイルに最適化されたGPUプールにルーティングします — 短いプロンプトはレイテンシ最適化インスタンスに、長いコンテキストはスループット最適化インスタンスに送られます。

05

オートスケーリング

トラフィックパターンに応じて推論キャパシティを自動的に拡張・縮小し、最適なリソース活用とコスト効率を実現します。

アーキテクチャ

Kubernetes Native

MoAI Inference FrameworkはKubernetesネイティブコントローラーのセットとして動作します — サイドカーデーモンや独自のコントロールプレーンは不要です。Helmでデプロイし、Istioを含むGateway API Inference Extension対応コントローラーで公開し、NFDがフリート全体のヘテロジニアスアクセラレータを自動検出します。

Kubernetes NativeGateway API Inference ExtensionIstio CompatibleHelm ChartsNFD IntegrationRoCE Networking

対応モデル

MoAI Inference Frameworkは、基盤となるサービングエンジン(Moreh vLLM、vLLM、SGLangなど)がサポートするすべてのモデルと互換性があります。主要なオープンソースLLMを含みます:

DeepSeekDeepSeekGPT-OSSGPT-OSSLlamaLlamaQwenQwenMistralMistralGLMGLMStepStepGemmaGemmaKimiKimiその他多数

対応ハードウェア

アクセラレータ

NVIDIA
B300B200H200H100H20A100
AMD
MI355XMI325XMI308XMI300XMI250XMI250
Tenstorrent
BlackholeWormhole

ネットワーキング

RoCEInfiniBand