Building Block

MoAI Fabric

Fabric định nghĩa bằng phần mềm, di chuyển KV cache trực tiếp giữa các chip và phần mềm không đồng nhất — giúp phân tách prefill-decode (disaggregation) hoạt động trong môi trường sản xuất, vượt qua ranh giới giữa nhà cung cấp, thế hệ và phương thức song song.

The Problem

KV cache là nơi tính không đồng nhất bị phá vỡ

Các stack phần mềm suy luận hiện nay đều giả định nhà sản xuất và nhà tiêu thụ KV cache là giống nhau. Khi không phải vậy, việc truyền KV cache trở thành rào cản lớn nhất đối với việc sử dụng hiệu quả các chip không đồng nhất.

Cross-Vendor Transport

RDMA trực tiếp giữa các GPU bị khóa theo nhà cung cấp. Không có đường đi native nào để di chuyển byte KV cache giữa các chip thuộc các nhà cung cấp khác nhau — chỉ còn lại đường vòng cực kỳ chậm qua bộ nhớ CPU.

Memory Layout

Các triển khai attention khác nhau bố trí tensor KV trong bộ nhớ GPU theo cách khác nhau. Byte của bên sản xuất không thể được đọc trực tiếp bởi bên tiêu thụ nếu bên đó mong đợi một bố cục khác.

Data Type & Quantization

Các độ chính xác và phương pháp lượng tử hóa khác nhau mã hóa cùng một giá trị thành các mẫu bit khác nhau. Byte được di chuyển qua chúng mà không có chuyển đổi rõ ràng sẽ trở thành những con số không liên quan.

Parallel Partitioning

Các chiến lược song song khác nhau chia KV cache trên nhiều GPU theo cách khác nhau. Một phép truyền 1:1 đơn giản giữa GPU không thể tái tạo lại dữ liệu đúng.

Solution

Truyền KV cache trực tiếp và tương thích, xuyên qua các nhà cung cấp

MoAI Fabric di chuyển KV cache trực tiếp giữa các GPU của bất kỳ nhà cung cấp nào, đồng thời chuyển đổi giữa các bố cục bộ nhớ, kiểu dữ liệu, phương pháp lượng tử hóa và phân vùng song song trên đường đi.

GPU

Vendor A

GPU

Vendor B

KV Cache Compatibility

Cross-Vendor Direct RDMA

What It Enables

Tách rời Prefill và Decode

Khi việc di chuyển KV cache không còn bị ràng buộc bởi cùng một hệ phần cứng và phần mềm, prefill và decode có thể được triển khai độc lập — mỗi pha trên nhà cung cấp, thế hệ và phương thức song song phù hợp nhất.

Across Vendors

Chạy prefill trên GPU NVIDIA và decode trên GPU AMD — hoặc ngược lại. Fabric chuyển đổi KV cache giữa các định dạng riêng của từng nhà cung cấp và truyền trực tiếp qua mạng, không có đường vòng CPU chậm chạp hay khóa nhà cung cấp ở bất kỳ pha nào.

Across Generations

Phối hợp các thế hệ GPU khác nhau giữa các pha — ví dụ, B300 cho prefill và H200 cho decode. Các thế hệ khác nhau thường sử dụng các định dạng KV cache khác nhau; Fabric hòa hợp chúng một cách trong suốt, giúp phần cứng cũ tiếp tục phát huy giá trị bên cạnh các chip mới nhất.

Independent Sizing and Parallelism

Chọn số lượng GPU và chiến lược song song cho prefill và decode một cách độc lập, dựa trên SLO về độ trễ và thông lượng. Fabric xử lý sự không khớp về phân vùng KV cache khi hai pha chạy ở quy mô khác nhau.