Solution

一个推理集群，所有GPU

AI数据中心在采购周期中积累了不同厂商、架构和代次的GPU。传统软件无法让它们协同工作，导致老旧GPU闲置并锁定在单一厂商。Moreh的软件将每块芯片统一为单一推理系统。

三种场景，一个平台

场景一

e.g., H100 + B200

让老旧GPU重新发挥作用——从新一代GPU分担任务，提升投机解码效率，使每一代GPU都为集群吞吐量做贡献。

场景二

e.g., H200 + MI355X

通过单一API端点在NVIDIA和AMD GPU间路由推理，并跨厂商分离Prefill和Decode以获得更高吞吐量。

场景三

e.g., GPU + Tenstorrent

将GPU与Tenstorrent芯片等专用AI加速器混合使用，让每种设备处理最擅长的工作负载。

所有这些功能均内置于 MoAI Inference Framework 中——一个在集群规模编排异构GPU的统一平台。

大模型部署在新一代GPU，小模型部署在老一代GPU

根据模型大小和硬件能力自动将模型分配到最合适的GPU池——在最新一代GPU上运行旗舰模型，老一代GPU处理轻量模型。

厂商A用于Prefill，厂商B用于Decode

使用NVIDIA GPU进行Prefill，AMD GPU进行Decode，实现比同一厂商配置高1.7倍的吞吐量。通过我们的跨厂商RDMA通信库实现，支持基于RoCE的GPU间直接数据传输。

算力型GPU用于Prefill，高带宽GPU用于Decode

将每个推理阶段匹配到最适合其特性的GPU——计算密集型Prefill在一种芯片上，带宽密集型Decode在另一种芯片上。同样适用于同一厂商内的芯片变体，如H100 + H20或MI300X + MI308X。

短序列路由到老一代GPU，长序列路由到新一代GPU

按序列长度将传入请求路由到最适合处理的GPU池——老一代GPU高效处理短工作负载，新一代GPU处理长上下文请求。

老一代GPU用于Prefill，新一代GPU用于Decode

将长上下文Prefill分布到多个老一代GPU节点，释放新一代GPU专注于Decode。

老一代GPU训练Draft模型，新一代GPU更快地Decode

在老一代GPU上持续改进Draft模型，提升新一代GPU上投机解码的效率——让每一代GPU都发挥价值。

自动检测和分类所有加速器

通过Kubernetes Node Feature Discovery自动检测和分类GPU，在所有发现的加速器间提供统一路由。

与我们的团队探讨在您的异构基础设施上部署MoAI Inference Framework。