Building Block

MoAI Performance Gateway

データセンター内のヘテロジニアスチップ間で推論リクエストをルーティングし、すべてのアクセラレータから最適な性能を引き出します。OpenAIおよびAnthropic互換APIを提供し、本番運用向けに設計されています。

A New Category

Performance gateway、新たに定義されるカテゴリ

AIゲートウェイは通常、モデルプロバイダーやリージョン間のルーティングを意味します。Morehは新しいカテゴリを定義します:データセンター内部で、すでに保有しているチップ間のルーティングにより性能を引き出します。

Gateway範囲対象役割
Semantic gatewayデータセンター内またはデータセンター間複数モデルリクエストのセマンティクスに基づき最適な(より小型の)モデルを選択
Multi-provider gatewayデータセンター間複数APIプロバイダー最もコスト効率が高いまたは利用可能なリージョンを選択
Performance gatewayデータセンター内部複数チップデータセンター内の複数の(ヘテロジニアス)チップ間でリクエストを分散し最適な性能を達成
Capabilities

性能のためのエンジニアリング

すべてのルーティング判断は、リクエストごとのKVキャッシュ状態、ワークロード特性、ライブエンジンテレメトリに基づきます。

Prefix Cache-Aware Routing

各リクエストを最長のキャッシュ済みプレフィックスを持つチップにルーティングし、マルチターンおよび長文コンテキストの会話におけるKVキャッシュの再計算を最小化します。

Request Length-Based Routing

リクエストのシーケンス長に最適なチップとサービング構成を選択し、ワークロード特性をハードウェアに合わせます。

Flexible Routing Composition

宣言的構成により、フィルター、スコアラー、ピッカーを組み合わせてカスタムルーティングパイプラインを構築します。Prefix cache-aware、load-aware、request length-based、またはカスタムスコアラーを自由に組み合わせ可能。

Heterogeneous Prefill-Decode Disaggregation

異なるベンダーやアーキテクチャのチップ間でprefillとdecodeフェーズを協調させ、転送失敗時には単一フェーズサービングへ自動フォールバックします。

GPUコンピュート外のオーバーヘッドを最小化

複数のサービスにまたがるのが通常のルーティング、スケジューリング、イベント駆動テレメトリが、単一バイナリ内で動作し、リクエストのホットパスにおけるプロセス間ホップを最小化します。負荷下でも推論パイプラインの実質的なレイテンシはGPUコンピュート自体のみです。

16×より低いP99レイテンシIstio + EPP比
<1 µsScheduling hot path
Architecture

複雑な最新APIをサービングエンジンから切り離す

Tool calling、reasoning budget、chat template、structured output、streamingプロトコル — AI APIは毎月のように複雑化しており、その複雑性のほとんどはGPUに依存しません。MoAI Performance Gatewayはこの複雑性をエッジで吸収し、サービングエンジンをシンプルに保ちます:トークンin、トークンout。次のAPIサーフェスやreasoningモデルへの更新時に、GPU依存のソフトウェアに触れる必要はありません。

Gatewayが処理
Chat templatesTool-call parsingReasoning extractionToken accountingStreaming SSERequest validationObservability events
エンジンが見るもの
token_ids → engine → token_ids
API Surfaces

あなたのアプリがすでに使っているAPIに対応

OpenAIおよびAnthropic互換 — agentおよびreasoningワークロードに必要な機能を備えています。

OpenAI Chat Completions API

POST /v1/chat/completions
Tool callsStreaming SSEReasoning contentSystem/developer roles

OpenAI Responses API

POST /v1/responses
Tool callsStreaming SSEReasoning contentSystem/developer rolesStateful conversation

Anthropic Messages API

POST /v1/messages
Tool useStreaming deltasExtended thinkingSystem prompts