MoAI Fabric
在异构芯片与软件之间直接搬运 KV 缓存的软件定义 Fabric — 让 prefill-decode 分离 (disaggregation) 跨越厂商、代际与并行化的边界,在生产环境中真正运作。
KV 缓存正是异构性失效的地方
现有的推理软件栈都假设 KV 缓存的生产者与消费者完全相同。一旦不相同,KV 缓存的传输就成了高效使用异构芯片的最大阻碍。
Cross-Vendor Transport
GPU 间的直接 RDMA 被绑定在单一厂商上。在不同厂商的芯片之间搬运 KV 缓存字节没有原生路径,只剩下绕道 CPU 内存的极慢路径。
Memory Layout
不同的 attention 实现以不同方式将 KV 张量排布在 GPU 内存中。生产者的字节无法被期望不同布局的消费者直接读取。
Data Type & Quantization
不同的精度和量化方案将相同的数值编码为不同的比特模式。未经显式转换直接搬运字节,得到的将是毫不相关的数字。
Parallel Partitioning
不同的并行化策略将 KV 缓存以不同方式切分到多张 GPU 上。简单的 1:1 GPU 间传输无法还原出正确的数据。
跨厂商的直接、可兼容 KV 缓存传输
MoAI Fabric 可在任何厂商的 GPU 之间直接搬运 KV 缓存,并在传输途中对内存布局、数据类型、量化方案和并行切分进行转换。
GPU
Vendor A
GPU
Vendor B
KV Cache Compatibility
Cross-Vendor Direct RDMA
解耦 Prefill 与 Decode
当 KV 缓存的搬运不再被同一套硬件与软件束缚,prefill 与 decode 就可以各自独立部署 — 为每个阶段选择最合适的厂商、代际与并行化策略。
Across Vendors
Prefill 跑在 NVIDIA GPU 上,decode 跑在 AMD GPU 上 — 或者反过来。Fabric 在厂商专有格式间转换 KV 缓存并直接通过网络传输,任一阶段都不再有缓慢的 CPU 绕路或厂商锁定。
Across Generations
在不同阶段混搭 GPU 代际 — 例如 prefill 用 B300、decode 用 H200。不同代际常常使用不同的 KV 缓存格式;Fabric 透明地完成对接,让旧库存继续与最新芯片共同发挥价值。
Independent Sizing and Parallelism
按延迟与吞吐 SLO 独立决定 prefill 与 decode 各自的 GPU 数量和并行化策略。两个阶段以不同规模运行时产生的 KV 缓存切分不匹配,由 Fabric 处理。