Solution
一个推理集群,所有GPU
AI数据中心在采购周期中积累了不同厂商、架构和代次的GPU。传统软件无法让它们协同工作,导致老旧GPU闲置并锁定在单一厂商。Moreh的软件将每块芯片统一为单一推理系统。
三种场景,一个平台
新旧代次混合
e.g., H100 + B200
让老旧GPU重新发挥作用——从新一代GPU分担任务,提升投机解码效率,使每一代GPU都为集群吞吐量做贡献。
NVIDIA + AMD
e.g., H200 + MI355X
通过单一API端点在NVIDIA和AMD GPU间路由推理,并跨厂商分离Prefill和Decode以获得更高吞吐量。
GPU + AI加速器
e.g., GPU + Tenstorrent
将GPU与Tenstorrent芯片等专用AI加速器混合使用,让每种设备处理最擅长的工作负载。
关键技术
所有这些功能均内置于 MoAI Inference Framework 中——一个在集群规模编排异构GPU的统一平台。
模型感知GPU放置
大模型部署在新一代GPU,小模型部署在老一代GPU
根据模型大小和硬件能力自动将模型分配到最合适的GPU池——在最新一代GPU上运行旗舰模型,老一代GPU处理轻量模型。
跨厂商Prefill-Decode分离
厂商A用于Prefill,厂商B用于Decode
使用NVIDIA GPU进行Prefill,AMD GPU进行Decode,实现比同一厂商配置高1.7倍的吞吐量。通过我们的跨厂商RDMA通信库实现,支持基于RoCE的GPU间直接数据传输。
工作负载感知Prefill-Decode分离
算力型GPU用于Prefill,高带宽GPU用于Decode
将每个推理阶段匹配到最适合其特性的GPU——计算密集型Prefill在一种芯片上,带宽密集型Decode在另一种芯片上。同样适用于同一厂商内的芯片变体,如H100 + H20或MI300X + MI308X。
了解更多 ›请求长度路由
短序列路由到老一代GPU,长序列路由到新一代GPU
按序列长度将传入请求路由到最适合处理的GPU池——老一代GPU高效处理短工作负载,新一代GPU处理长上下文请求。
Kubernetes NFD自动发现
自动检测和分类所有加速器
通过Kubernetes Node Feature Discovery自动检测和分类GPU,在所有发现的加速器间提供统一路由。