一个集群,所有GPU
大多数推理栈将您锁定在单一厂商。MoAI Inference Framework打破了这一限制——在不同厂商的芯片之间分离Prefill和Decode,充分利用老旧GPU的剩余价值,或将非GPU加速器加入同一集群。每个设备运行最适合它的任务。
1.7×跨厂商
PD分离吞吐量
0混合厂商
统一路由开销
统一API端点
性能网关
NVIDIA
AMD
Tenstorrent
…
跨厂商软件 Fabric
自动分离
高效的分布式推理需要结合多种技术、最优分配GPU资源并智能调度请求。MoAI Inference Framework基于您定义的SLO和实时流量模式自动完成所有这些工作。
SLO驱动优化
指定延迟约束,让框架自动确定最优并行化策略和资源分配,以最大化每美元的吞吐量。
Prefill-Decode分离
将Prefill和Decode阶段分离到不同的GPU池——包括跨异构GPU类型——以针对每种工作负载特性优化资源利用。
前缀缓存感知路由
将请求路由到具有预缓存前缀计算的实例,TTFT降低最多20倍,仅用40%的服务器即可实现2.2倍的吞吐量。
请求长度路由
按预期长度对传入请求进行分类,并路由到针对每种工作负载特性优化的GPU池——短提示发送到低延迟实例,长上下文发送到高吞吐实例。
自动扩缩
根据流量模式自动扩展和缩减推理容量,确保最优的资源利用率和成本效率。
构建模块
MoAI Inference Framework 由专门构建的组件组成,协同工作以在异构加速器上提供最优推理。
支持的模型
MoAI Inference Framework兼容其底层服务引擎(Moreh vLLM、vLLM、SGLang等)支持的所有模型。包括大多数开源LLM:
支持的硬件
加速器
NVIDIA
AMD
Tenstorrent
网络
RDMA interconnect