MoAI Performance Gateway
データセンター内のヘテロジニアスチップ間で推論リクエストをルーティングし、すべてのアクセラレータから最適な性能を引き出します。OpenAIおよびAnthropic互換APIを提供し、本番運用向けに設計されています。
Performance gateway、新たに定義されるカテゴリ
AIゲートウェイは通常、モデルプロバイダーやリージョン間のルーティングを意味します。Morehは新しいカテゴリを定義します:データセンター内部で、すでに保有しているチップ間のルーティングにより性能を引き出します。
| Gateway | 範囲 | 対象 | 役割 |
|---|---|---|---|
| Semantic gateway | データセンター内またはデータセンター間 | 複数モデル | リクエストのセマンティクスに基づき最適な(より小型の)モデルを選択 |
| Multi-provider gateway | データセンター間 | 複数APIプロバイダー | 最もコスト効率が高いまたは利用可能なリージョンを選択 |
| Performance gateway | データセンター内部 | 複数チップ | データセンター内の複数の(ヘテロジニアス)チップ間でリクエストを分散し最適な性能を達成 |
性能のためのエンジニアリング
すべてのルーティング判断は、リクエストごとのKVキャッシュ状態、ワークロード特性、ライブエンジンテレメトリに基づきます。
Prefix Cache-Aware Routing
各リクエストを最長のキャッシュ済みプレフィックスを持つチップにルーティングし、マルチターンおよび長文コンテキストの会話におけるKVキャッシュの再計算を最小化します。
Request Length-Based Routing
リクエストのシーケンス長に最適なチップとサービング構成を選択し、ワークロード特性をハードウェアに合わせます。
Flexible Routing Composition
宣言的構成により、フィルター、スコアラー、ピッカーを組み合わせてカスタムルーティングパイプラインを構築します。Prefix cache-aware、load-aware、request length-based、またはカスタムスコアラーを自由に組み合わせ可能。
Heterogeneous Prefill-Decode Disaggregation
異なるベンダーやアーキテクチャのチップ間でprefillとdecodeフェーズを協調させ、転送失敗時には単一フェーズサービングへ自動フォールバックします。
GPUコンピュート外のオーバーヘッドを最小化
複数のサービスにまたがるのが通常のルーティング、スケジューリング、イベント駆動テレメトリが、単一バイナリ内で動作し、リクエストのホットパスにおけるプロセス間ホップを最小化します。負荷下でも推論パイプラインの実質的なレイテンシはGPUコンピュート自体のみです。
複雑な最新APIをサービングエンジンから切り離す
Tool calling、reasoning budget、chat template、structured output、streamingプロトコル — AI APIは毎月のように複雑化しており、その複雑性のほとんどはGPUに依存しません。MoAI Performance Gatewayはこの複雑性をエッジで吸収し、サービングエンジンをシンプルに保ちます:トークンin、トークンout。次のAPIサーフェスやreasoningモデルへの更新時に、GPU依存のソフトウェアに触れる必要はありません。
token_ids → engine → token_idsあなたのアプリがすでに使っているAPIに対応
OpenAIおよびAnthropic互換 — agentおよびreasoningワークロードに必要な機能を備えています。
OpenAI Chat Completions API
POST /v1/chat/completionsOpenAI Responses API
POST /v1/responsesAnthropic Messages API
POST /v1/messages