MoAI Performance Gateway
在数据中心的异构芯片之间路由推理请求,从每一颗加速器中挖掘最佳性能。提供 OpenAI 和 Anthropic 兼容 API,面向生产环境构建。
Performance gateway,全新定义的类别
AI 网关通常意味着在模型提供商或区域之间进行路由。Moreh 定义了一个新类别:在数据中心内部,在你已有的芯片之间进行路由,以追求性能。
| Gateway | 范围 | 对象 | 作用 |
|---|---|---|---|
| Semantic gateway | 数据中心内或跨数据中心 | 多个模型 | 根据请求语义选择最合适(更小)的模型 |
| Multi-provider gateway | 跨数据中心 | 多个 API 提供商 | 选择成本最优或可用的区域 |
| Performance gateway | 数据中心内部 | 多颗芯片 | 在数据中心内的多颗(异构)芯片之间分发请求,以达成最佳性能 |
为性能而工程化
每一次路由决策都基于请求级 KV 缓存状态、工作负载特征以及实时引擎遥测信息。
Prefix Cache-Aware Routing
将每个请求路由到拥有最长缓存前缀的芯片,最小化多轮和长上下文对话中的 KV 缓存重新计算。
Request Length-Based Routing
根据请求的序列长度选择最适合的芯片与服务配置,将工作负载特征与硬件相匹配。
Flexible Routing Composition
通过声明式配置组合过滤器、评分器和选择器,构建自定义路由管线。可自由组合 prefix cache-aware、load-aware、request length-based 或自定义评分器。
Heterogeneous Prefill-Decode Disaggregation
在不同厂商和架构的芯片之间协调 prefill 与 decode 阶段,传输失败时自动回退到单阶段服务。
最小化 GPU 计算之外的开销
通常分散在多个服务中的路由、调度与事件驱动遥测,统一运行在单个二进制文件内,将请求热路径上的进程间跳转降到最低。即使在高负载下,推理管线中唯一真正的延迟就是 GPU 计算本身。
把现代 API 的复杂性从服务引擎中剥离
Tool calling、reasoning budget、chat template、结构化输出、streaming 协议 — AI API 每月都在变得更复杂,而这些复杂性大多与 GPU 无关。MoAI Performance Gateway 在边缘吸收这些复杂性,让服务引擎保持简单:tokens in,tokens out。升级到下一代 API 表面或 reasoning 模型时,无需触及与 GPU 相关的软件。
token_ids → engine → token_ids兼容你的应用已经在使用的 API
OpenAI 和 Anthropic 兼容 — 涵盖 agent 与 reasoning 工作负载所需的关键功能。
OpenAI Chat Completions API
POST /v1/chat/completionsOpenAI Responses API
POST /v1/responsesAnthropic Messages API
POST /v1/messages