MoAI Inference Framework

数据中心规模的分布式推理自动化

无论厂商、代次或架构如何，通过单一API端点在您拥有的所有GPU上服务大模型。MoAI Inference Framework自动分配资源、路由请求、扩缩容量，使集群以最低延迟提供最大吞吐量。

核心差异化

一个集群，所有GPU

大多数推理栈将您锁定在单一厂商。MoAI Inference Framework打破了这一限制——在不同厂商的芯片之间分离Prefill和Decode，充分利用老旧GPU的剩余价值，或将非GPU加速器加入同一集群。每个设备运行最适合它的任务。

1.7×

跨厂商 PD分离吞吐量

混合厂商统一路由开销

探索场景 ›

统一API端点

性能网关

NVIDIA

AMD

Tenstorrent

…

跨厂商软件 Fabric

核心功能

自动分离

高效的分布式推理需要结合多种技术、最优分配GPU资源并智能调度请求。MoAI Inference Framework基于您定义的SLO和实时流量模式自动完成所有这些工作。

SLO驱动优化

指定延迟约束，让框架自动确定最优并行化策略和资源分配，以最大化每美元的吞吐量。

Prefill-Decode分离

将Prefill和Decode阶段分离到不同的GPU池——包括跨异构GPU类型——以针对每种工作负载特性优化资源利用。

前缀缓存感知路由

将请求路由到具有预缓存前缀计算的实例，TTFT降低最多20倍，仅用40%的服务器即可实现2.2倍的吞吐量。

请求长度路由

按预期长度对传入请求进行分类，并路由到针对每种工作负载特性优化的GPU池——短提示发送到低延迟实例，长上下文发送到高吞吐实例。

自动扩缩

根据流量模式自动扩展和缩减推理容量，确保最优的资源利用率和成本效率。

架构

Kubernetes Native

MoAI Inference Framework作为一组Kubernetes原生控制器运行——无需Sidecar守护进程，无专有控制平面。使用Helm部署，通过任何兼容Gateway API Inference Extension的控制器（包括Istio）暴露，NFD自动发现集群中的异构加速器。

Kubernetes NativeGateway API Inference ExtensionIstio CompatibleHelm ChartsNFD IntegrationRoCE Networking

支持的模型

MoAI Inference Framework兼容其底层服务引擎（Moreh vLLM、vLLM、SGLang等）支持的所有模型。包括大多数开源LLM：

DeepSeek

GPT-OSS

Llama

Qwen

Mistral

GLM

Step

Gemma

Kimi及更多

支持的硬件

加速器

NVIDIA

B300B200H200H100H20A100

AMD

MI355XMI325XMI308XMI300XMI250XMI250

Tenstorrent

BlackholeWormhole

网络

RoCEInfiniBand