核心差异化
一个集群,所有GPU
大多数推理栈将您锁定在单一厂商。MoAI Inference Framework打破了这一限制——在不同厂商的芯片之间分离Prefill和Decode,充分利用老旧GPU的剩余价值,或将非GPU加速器加入同一集群。每个设备运行最适合它的任务。
1.7×
跨厂商 PD分离吞吐量
0
混合厂商 统一路由开销
统一API端点
路由器 / 调度器
NVIDIA
AMD
Tenstorrent
核心功能
自动分离
高效的分布式推理需要结合多种技术、最优分配GPU资源并智能调度请求。MoAI Inference Framework基于您定义的SLO和实时流量模式自动完成所有这些工作。
01
SLO驱动优化
指定延迟约束,让框架自动确定最优并行化策略和资源分配,以最大化每美元的吞吐量。
02
Prefill-Decode分离
将Prefill和Decode阶段分离到不同的GPU池——包括跨异构GPU类型——以针对每种工作负载特性优化资源利用。
03
前缀缓存感知路由
将请求路由到具有预缓存前缀计算的实例,TTFT降低最多20倍,仅用40%的服务器即可实现2.2倍的吞吐量。
04
请求长度路由
按预期长度对传入请求进行分类,并路由到针对每种工作负载特性优化的GPU池——短提示发送到低延迟实例,长上下文发送到高吞吐实例。
05
自动扩缩
根据流量模式自动扩展和缩减推理容量,确保最优的资源利用率和成本效率。
架构
Kubernetes Native
MoAI Inference Framework作为一组Kubernetes原生控制器运行——无需Sidecar守护进程,无专有控制平面。使用Helm部署,通过任何兼容Gateway API Inference Extension的控制器(包括Istio)暴露,NFD自动发现集群中的异构加速器。
支持的模型
MoAI Inference Framework兼容其底层服务引擎(Moreh vLLM、vLLM、SGLang等)支持的所有模型。包括大多数开源LLM:
支持的硬件
加速器
网络