Building Block

MoAI Performance Gateway

データセンター内のヘテロジニアスチップ間で推論リクエストをルーティングし、すべてのアクセラレータから最適な性能を引き出します。OpenAIおよびAnthropic互換APIを提供し、本番運用向けに設計されています。

A New Category

Performance gateway、新たに定義されるカテゴリ

AIゲートウェイは通常、モデルプロバイダーやリージョン間のルーティングを意味します。Morehは新しいカテゴリを定義します:データセンター内部で、すでに保有しているチップ間のルーティングにより性能を引き出します。

Gateway	範囲	対象	役割
Semantic gateway	データセンター内またはデータセンター間	複数モデル	リクエストのセマンティクスに基づき最適な(より小型の)モデルを選択
Multi-provider gateway	データセンター間	複数APIプロバイダー	最もコスト効率が高いまたは利用可能なリージョンを選択
Performance gateway	データセンター内部	複数チップ	データセンター内の複数の(ヘテロジニアス)チップ間でリクエストを分散し最適な性能を達成

Capabilities

性能のためのエンジニアリング

すべてのルーティング判断は、リクエストごとのKVキャッシュ状態、ワークロード特性、ライブエンジンテレメトリに基づきます。

Prefix Cache-Aware Routing

各リクエストを最長のキャッシュ済みプレフィックスを持つチップにルーティングし、マルチターンおよび長文コンテキストの会話におけるKVキャッシュの再計算を最小化します。

Request Length-Based Routing

リクエストのシーケンス長に最適なチップとサービング構成を選択し、ワークロード特性をハードウェアに合わせます。

Flexible Routing Composition

宣言的構成により、フィルター、スコアラー、ピッカーを組み合わせてカスタムルーティングパイプラインを構築します。Prefix cache-aware、load-aware、request length-based、またはカスタムスコアラーを自由に組み合わせ可能。

Heterogeneous Prefill-Decode Disaggregation

異なるベンダーやアーキテクチャのチップ間でprefillとdecodeフェーズを協調させ、転送失敗時には単一フェーズサービングへ自動フォールバックします。

GPUコンピュート外のオーバーヘッドを最小化

複数のサービスにまたがるのが通常のルーティング、スケジューリング、イベント駆動テレメトリが、単一バイナリ内で動作し、リクエストのホットパスにおけるプロセス間ホップを最小化します。負荷下でも推論パイプラインの実質的なレイテンシはGPUコンピュート自体のみです。

16×より低いP99レイテンシIstio + EPP比

<1 µsScheduling hot path

Architecture

複雑な最新APIをサービングエンジンから切り離す

Tool calling、reasoning budget、chat template、structured output、streamingプロトコル — AI APIは毎月のように複雑化しており、その複雑性のほとんどはGPUに依存しません。MoAI Performance Gatewayはこの複雑性をエッジで吸収し、サービングエンジンをシンプルに保ちます:トークンin、トークンout。次のAPIサーフェスやreasoningモデルへの更新時に、GPU依存のソフトウェアに触れる必要はありません。

Gatewayが処理

エンジンが見るもの

token_ids → engine → token_ids

API Surfaces

あなたのアプリがすでに使っているAPIに対応

OpenAIおよびAnthropic互換 — agentおよびreasoningワークロードに必要な機能を備えています。

OpenAI Chat Completions API

POST /v1/chat/completions

OpenAI Responses API

POST /v1/responses

Anthropic Messages API

POST /v1/messages