Building Block

MoAI Performance Gateway

在数据中心的异构芯片之间路由推理请求,从每一颗加速器中挖掘最佳性能。提供 OpenAI 和 Anthropic 兼容 API,面向生产环境构建。

A New Category

Performance gateway,全新定义的类别

AI 网关通常意味着在模型提供商或区域之间进行路由。Moreh 定义了一个新类别:在数据中心内部,在你已有的芯片之间进行路由,以追求性能。

Gateway	范围	对象	作用
Semantic gateway	数据中心内或跨数据中心	多个模型	根据请求语义选择最合适(更小)的模型
Multi-provider gateway	跨数据中心	多个 API 提供商	选择成本最优或可用的区域
Performance gateway	数据中心内部	多颗芯片	在数据中心内的多颗(异构)芯片之间分发请求,以达成最佳性能

Capabilities

为性能而工程化

每一次路由决策都基于请求级 KV 缓存状态、工作负载特征以及实时引擎遥测信息。

Prefix Cache-Aware Routing

将每个请求路由到拥有最长缓存前缀的芯片,最小化多轮和长上下文对话中的 KV 缓存重新计算。

Request Length-Based Routing

根据请求的序列长度选择最适合的芯片与服务配置,将工作负载特征与硬件相匹配。

Flexible Routing Composition

通过声明式配置组合过滤器、评分器和选择器,构建自定义路由管线。可自由组合 prefix cache-aware、load-aware、request length-based 或自定义评分器。

Heterogeneous Prefill-Decode Disaggregation

在不同厂商和架构的芯片之间协调 prefill 与 decode 阶段,传输失败时自动回退到单阶段服务。

最小化 GPU 计算之外的开销

通常分散在多个服务中的路由、调度与事件驱动遥测,统一运行在单个二进制文件内,将请求热路径上的进程间跳转降到最低。即使在高负载下,推理管线中唯一真正的延迟就是 GPU 计算本身。

16×更低的 P99 延迟对比 Istio + EPP

<1 µsScheduling hot path

Architecture

把现代 API 的复杂性从服务引擎中剥离

Tool calling、reasoning budget、chat template、结构化输出、streaming 协议 — AI API 每月都在变得更复杂,而这些复杂性大多与 GPU 无关。MoAI Performance Gateway 在边缘吸收这些复杂性,让服务引擎保持简单:tokens in,tokens out。升级到下一代 API 表面或 reasoning 模型时,无需触及与 GPU 相关的软件。

由 Gateway 处理

引擎所见

token_ids → engine → token_ids

API Surfaces

兼容你的应用已经在使用的 API

OpenAI 和 Anthropic 兼容 — 涵盖 agent 与 reasoning 工作负载所需的关键功能。

OpenAI Chat Completions API

POST /v1/chat/completions

OpenAI Responses API

POST /v1/responses

Anthropic Messages API

POST /v1/messages