フルスタックソフトウェア

MoAI Inference Framework

データセンター規模の分散推論ソフトウェア

ベンダー、世代、アーキテクチャに関係なく、すべてのGPUで大規模モデルを単一APIエンドポイントからサービングできます。MoAI Inference Frameworkが自動的にリソースを割り当て、リクエストをルーティングし、キャパシティをスケーリングして、クラスターが最低レイテンシで最大スループットを提供します。

デモを依頼→ドキュメントを見る

主要な差別化要素

1つのクラスター、すべてのGPU

多くの推論スタックは単一ベンダーに依存します。MoAI Inference Frameworkはその制約を解消します — 異なるベンダーのチップ間でPrefillとDecodeを分離し、レガシーGPUの残存価値を活用し、非GPUアクセラレータも同一クラスターに追加できます。各デバイスは最も得意な処理を実行します。

1.7×クロスベンダー PDディスアグリゲーションのスループット

0混合ベンダー統合ルーティングのオーバーヘッド

シナリオを見る→

統合APIエンドポイント

パフォーマンスゲートウェイ

NVIDIA

AMD

Tenstorrent

…

クロスベンダーソフトウェアファブリック

コア機能

自動ディスアグリゲーション

効率的な分散推論には、複数の技術の組み合わせ、GPUリソースの最適な割り当て、インテリジェントなリクエストスケジューリングが必要です。MoAI Inference Frameworkは、定義されたSLOとリアルタイムのトラフィックパターンに基づいて、これらすべてを自動化します。

SLO駆動最適化

レイテンシ制約を指定すると、フレームワークが自動的に最適な並列化戦略とリソース割り当てを決定し、コストあたりのスループットを最大化します。

Prefill-Decodeディスアグリゲーション

ヘテロジニアスGPUタイプを含む異なるGPUプール間でPrefillフェーズとDecodeフェーズを分離し、各ワークロード特性に合わせてリソース活用を最適化します。

プレフィックスキャッシュ対応ルーティング

事前にキャッシュされたプレフィックス計算を持つインスタンスにリクエストをルーティングし、TTFTを最大20倍短縮、サーバーの40%で2.2倍のスループットを達成します。

リクエスト長ベースルーティング

受信リクエストを予想される長さで分類し、各ワークロードプロファイルに最適化されたGPUプールにルーティングします — 短いプロンプトはレイテンシ最適化インスタンスに、長いコンテキストはスループット最適化インスタンスに送られます。

オートスケーリング

トラフィックパターンに応じて推論キャパシティを自動的に拡張・縮小し、最適なリソース活用とコスト効率を実現します。

アーキテクチャ

ビルディングブロック

MoAI Inference Framework は、異種アクセラレータで最適な推論を実現するために設計された専用コンポーネントで構成されています。

MoAI Performance Gateway

異種アクセラレータ間のインテリジェントなワークロード分配。

詳しく見る→

MoAI Fabric

KV キャッシュ転送のためのソフトウェア定義クロスベンダー GPU メモリファブリック。

詳しく見る→

MoAI Autopilot

SLO ベースのサービングスタック構成と継続的最適化。

近日公開

Moreh vLLM for AMD

AMD GPU で最大 2 倍のスループットを実現する vLLM ドロップイン代替。

詳しく見る→

Moreh vLLM for Tenstorrent

Tenstorrent アクセラレータ上の高性能 vLLM サービング。

詳しく見る→

Models

対応モデル

MoAI Inference Frameworkは、基盤となるサービングエンジン（Moreh vLLM、vLLM、SGLangなど）がサポートするすべてのモデルと互換性があります。主要なオープンソースLLMを含みます：

Hardware

対応ハードウェア

アクセラレータ

NVIDIA

AMD

Tenstorrent

ネットワーキング

RDMA interconnect