MoAI Inference Framework

数据中心规模的分布式推理自动化

无论厂商、代次或架构如何,通过单一API端点在您拥有的所有GPU上服务大模型。MoAI Inference Framework自动分配资源、路由请求、扩缩容量,使集群以最低延迟提供最大吞吐量。

核心差异化

一个集群,所有GPU

大多数推理栈将您锁定在单一厂商。MoAI Inference Framework打破了这一限制——在不同厂商的芯片之间分离Prefill和Decode,充分利用老旧GPU的剩余价值,或将非GPU加速器加入同一集群。每个设备运行最适合它的任务。

1.7×

跨厂商 PD分离吞吐量

0

混合厂商 统一路由开销

探索场景 ›

统一API端点

路由器 / 调度器

NVIDIA

AMD

Tenstorrent

核心功能

自动分离

高效的分布式推理需要结合多种技术、最优分配GPU资源并智能调度请求。MoAI Inference Framework基于您定义的SLO和实时流量模式自动完成所有这些工作。

01

SLO驱动优化

指定延迟约束,让框架自动确定最优并行化策略和资源分配,以最大化每美元的吞吐量。

02

Prefill-Decode分离

将Prefill和Decode阶段分离到不同的GPU池——包括跨异构GPU类型——以针对每种工作负载特性优化资源利用。

03

前缀缓存感知路由

将请求路由到具有预缓存前缀计算的实例,TTFT降低最多20倍,仅用40%的服务器即可实现2.2倍的吞吐量。

04

请求长度路由

按预期长度对传入请求进行分类,并路由到针对每种工作负载特性优化的GPU池——短提示发送到低延迟实例,长上下文发送到高吞吐实例。

05

自动扩缩

根据流量模式自动扩展和缩减推理容量,确保最优的资源利用率和成本效率。

架构

Kubernetes Native

MoAI Inference Framework作为一组Kubernetes原生控制器运行——无需Sidecar守护进程,无专有控制平面。使用Helm部署,通过任何兼容Gateway API Inference Extension的控制器(包括Istio)暴露,NFD自动发现集群中的异构加速器。

Kubernetes NativeGateway API Inference ExtensionIstio CompatibleHelm ChartsNFD IntegrationRoCE Networking

支持的模型

MoAI Inference Framework兼容其底层服务引擎(Moreh vLLM、vLLM、SGLang等)支持的所有模型。包括大多数开源LLM:

DeepSeekDeepSeekGPT-OSSGPT-OSSLlamaLlamaQwenQwenMistralMistralGLMGLMStepStepGemmaGemmaKimiKimi及更多

支持的硬件

加速器

NVIDIA
B300B200H200H100H20A100
AMD
MI355XMI325XMI308XMI300XMI250XMI250
Tenstorrent
BlackholeWormhole

网络

RoCEInfiniBand