Building Block

MoAI Fabric

在异构芯片与软件之间直接搬运 KV 缓存的软件定义 Fabric — 让 prefill-decode 分离 (disaggregation) 跨越厂商、代际与并行化的边界,在生产环境中真正运作。

The Problem

KV 缓存正是异构性失效的地方

现有的推理软件栈都假设 KV 缓存的生产者与消费者完全相同。一旦不相同,KV 缓存的传输就成了高效使用异构芯片的最大阻碍。

GPU 间的直接 RDMA 被绑定在单一厂商上。在不同厂商的芯片之间搬运 KV 缓存字节没有原生路径,只剩下绕道 CPU 内存的极慢路径。

不同的 attention 实现以不同方式将 KV 张量排布在 GPU 内存中。生产者的字节无法被期望不同布局的消费者直接读取。

不同的精度和量化方案将相同的数值编码为不同的比特模式。未经显式转换直接搬运字节,得到的将是毫不相关的数字。

不同的并行化策略将 KV 缓存以不同方式切分到多张 GPU 上。简单的 1:1 GPU 间传输无法还原出正确的数据。

Solution

MoAI Fabric 可在任何厂商的 GPU 之间直接搬运 KV 缓存,并在传输途中对内存布局、数据类型、量化方案和并行切分进行转换。

GPU

Vendor A

GPU

Vendor B

KV Cache Compatibility

Cross-Vendor Direct RDMA

What It Enables

当 KV 缓存的搬运不再被同一套硬件与软件束缚,prefill 与 decode 就可以各自独立部署 — 为每个阶段选择最合适的厂商、代际与并行化策略。

Prefill 跑在 NVIDIA GPU 上,decode 跑在 AMD GPU 上 — 或者反过来。Fabric 在厂商专有格式间转换 KV 缓存并直接通过网络传输,任一阶段都不再有缓慢的 CPU 绕路或厂商锁定。

在不同阶段混搭 GPU 代际 — 例如 prefill 用 B300、decode 用 H200。不同代际常常使用不同的 KV 缓存格式;Fabric 透明地完成对接,让旧库存继续与最新芯片共同发挥价值。

按延迟与吞吐 SLO 独立决定 prefill 与 decode 各自的 GPU 数量和并行化策略。两个阶段以不同规模运行时产生的 KV 缓存切分不匹配,由 Fabric 处理。