1つのクラスター、すべてのGPU
多くの推論スタックは単一ベンダーに依存します。MoAI Inference Frameworkはその制約を解消します — 異なるベンダーのチップ間でPrefillとDecodeを分離し、レガシーGPUの残存価値を活用し、非GPUアクセラレータも同一クラスターに追加できます。各デバイスは最も得意な処理を実行します。
統合APIエンドポイント
パフォーマンスゲートウェイ
NVIDIA
AMD
Tenstorrent
クロスベンダーソフトウェアファブリック
自動 ディスアグリゲーション
効率的な分散推論には、複数の技術の組み合わせ、GPUリソースの最適な割り当て、インテリジェントなリクエストスケジューリングが必要です。MoAI Inference Frameworkは、定義されたSLOとリアルタイムのトラフィックパターンに基づいて、これらすべてを自動化します。
SLO駆動最適化
レイテンシ制約を指定すると、フレームワークが自動的に最適な並列化戦略とリソース割り当てを決定し、コストあたりのスループットを最大化します。
Prefill-Decodeディスアグリゲーション
ヘテロジニアスGPUタイプを含む異なるGPUプール間でPrefillフェーズとDecodeフェーズを分離し、各ワークロード特性に合わせてリソース活用を最適化します。
プレフィックスキャッシュ対応ルーティング
事前にキャッシュされたプレフィックス計算を持つインスタンスにリクエストをルーティングし、TTFTを最大20倍短縮、サーバーの40%で2.2倍のスループットを達成します。
リクエスト長ベースルーティング
受信リクエストを予想される長さで分類し、各ワークロードプロファイルに最適化されたGPUプールにルーティングします — 短いプロンプトはレイテンシ最適化インスタンスに、長いコンテキストはスループット最適化インスタンスに送られます。
オートスケーリング
トラフィックパターンに応じて推論キャパシティを自動的に拡張・縮小し、最適なリソース活用とコスト効率を実現します。
ビルディングブロック
MoAI Inference Framework は、異種アクセラレータで最適な推論を実現するために設計された専用コンポーネントで構成されています。
対応モデル
MoAI Inference Frameworkは、基盤となるサービングエンジン(Moreh vLLM、vLLM、SGLangなど)がサポートするすべてのモデルと互換性があります。主要なオープンソースLLMを含みます:
対応ハードウェア
アクセラレータ
ネットワーキング