Solution

一个推理集群,所有GPU

AI数据中心在采购周期中积累了不同厂商、架构和代次的GPU。传统软件无法让它们协同工作,导致老旧GPU闲置并锁定在单一厂商。Moreh的软件将每块芯片统一为单一推理系统。

三种场景,一个平台

场景一

新旧代次混合

e.g., H100 + B200

让老旧GPU重新发挥作用——从新一代GPU分担任务,提升投机解码效率,使每一代GPU都为集群吞吐量做贡献。

场景二

NVIDIA + AMD

e.g., H200 + MI355X

通过单一API端点在NVIDIA和AMD GPU间路由推理,并跨厂商分离Prefill和Decode以获得更高吞吐量。

场景三

GPU + AI加速器

e.g., GPU + Tenstorrent

将GPU与Tenstorrent芯片等专用AI加速器混合使用,让每种设备处理最擅长的工作负载。

关键技术

所有这些功能均内置于 MoAI Inference Framework 中——一个在集群规模编排异构GPU的统一平台。

模型感知GPU放置

大模型部署在新一代GPU,小模型部署在老一代GPU

根据模型大小和硬件能力自动将模型分配到最合适的GPU池——在最新一代GPU上运行旗舰模型,老一代GPU处理轻量模型。

跨厂商Prefill-Decode分离

厂商A用于Prefill,厂商B用于Decode

使用NVIDIA GPU进行Prefill,AMD GPU进行Decode,实现比同一厂商配置高1.7倍的吞吐量。通过我们的跨厂商RDMA通信库实现,支持基于RoCE的GPU间直接数据传输。

工作负载感知Prefill-Decode分离

算力型GPU用于Prefill,高带宽GPU用于Decode

将每个推理阶段匹配到最适合其特性的GPU——计算密集型Prefill在一种芯片上,带宽密集型Decode在另一种芯片上。同样适用于同一厂商内的芯片变体,如H100 + H20或MI300X + MI308X。

了解更多

请求长度路由

短序列路由到老一代GPU,长序列路由到新一代GPU

按序列长度将传入请求路由到最适合处理的GPU池——老一代GPU高效处理短工作负载,新一代GPU处理长上下文请求。

多节点Prefill引擎(SLOPE)

老一代GPU用于Prefill,新一代GPU用于Decode

将长上下文Prefill分布到多个老一代GPU节点,释放新一代GPU专注于Decode。

了解更多

在线Draft模型训练

老一代GPU训练Draft模型,新一代GPU更快地Decode

在老一代GPU上持续改进Draft模型,提升新一代GPU上投机解码的效率——让每一代GPU都发挥价值。

了解更多

Kubernetes NFD自动发现

自动检测和分类所有加速器

通过Kubernetes Node Feature Discovery自动检测和分类GPU,在所有发现的加速器间提供统一路由。

准备好统一您的GPU资源了吗?

与我们的团队探讨在您的异构基础设施上部署MoAI Inference Framework。