全栈软件

MoAI Inference Framework

数据中心规模的分布式推理软件

无论厂商、代次或架构如何，通过单一API端点在您拥有的所有GPU上服务大模型。MoAI Inference Framework自动分配资源、路由请求、扩缩容量，使集群以最低延迟提供最大吞吐量。

核心差异化

一个集群，所有GPU

大多数推理栈将您锁定在单一厂商。MoAI Inference Framework打破了这一限制——在不同厂商的芯片之间分离Prefill和Decode，充分利用老旧GPU的剩余价值，或将非GPU加速器加入同一集群。每个设备运行最适合它的任务。

1.7×跨厂商 PD分离吞吐量

0混合厂商统一路由开销

探索场景→

统一API端点

性能网关

NVIDIA

AMD

Tenstorrent

…

跨厂商软件 Fabric

核心功能

自动分离

高效的分布式推理需要结合多种技术、最优分配GPU资源并智能调度请求。MoAI Inference Framework基于您定义的SLO和实时流量模式自动完成所有这些工作。

SLO驱动优化

指定延迟约束，让框架自动确定最优并行化策略和资源分配，以最大化每美元的吞吐量。

Prefill-Decode分离

将Prefill和Decode阶段分离到不同的GPU池——包括跨异构GPU类型——以针对每种工作负载特性优化资源利用。

前缀缓存感知路由

将请求路由到具有预缓存前缀计算的实例，TTFT降低最多20倍，仅用40%的服务器即可实现2.2倍的吞吐量。

请求长度路由

按预期长度对传入请求进行分类，并路由到针对每种工作负载特性优化的GPU池——短提示发送到低延迟实例，长上下文发送到高吞吐实例。

自动扩缩

根据流量模式自动扩展和缩减推理容量，确保最优的资源利用率和成本效率。

架构

构建模块

MoAI Inference Framework 由专门构建的组件组成，协同工作以在异构加速器上提供最优推理。

MoAI Performance Gateway

跨异构加速器的智能工作负载分配。

了解更多→

MoAI Fabric

软件定义的跨厂商 GPU 内存 Fabric，用于 KV 缓存传输。

了解更多→

MoAI Autopilot

基于 SLO 的服务栈配置与持续优化。

即将推出

Moreh vLLM for AMD

在 AMD GPU 上吞吐量提升最高 2 倍的 vLLM 替代方案。

了解更多→

Moreh vLLM for Tenstorrent

在 Tenstorrent 加速器上的高性能 vLLM 服务。

了解更多→

Models

支持的模型

MoAI Inference Framework兼容其底层服务引擎（Moreh vLLM、vLLM、SGLang等）支持的所有模型。包括大多数开源LLM：

Hardware

支持的硬件

加速器

NVIDIA

AMD

Tenstorrent

网络

RDMA interconnect