MoAI Inference Framework

Tự động hóa suy luận phân tán ở quy mô trung tâm dữ liệu

Phục vụ các mô hình lớn trên mọi GPU bạn có — bất kể nhà cung cấp, thế hệ hay kiến trúc — thông qua một API endpoint duy nhất. MoAI Inference Framework tự động phân bổ tài nguyên, định tuyến yêu cầu và mở rộng dung lượng để cluster đạt thông lượng tối đa với độ trễ thấp nhất.

Yêu cầu Demo Xem tài liệu

Điểm khác biệt chính

Một cluster, mọi GPU

Hầu hết các stack suy luận đều ràng buộc bạn với một nhà cung cấp duy nhất. MoAI Inference Framework phá vỡ ràng buộc đó — phân tách prefill và decode trên các chip từ nhiều nhà cung cấp khác nhau, tận dụng giá trị còn lại của GPU cũ, hoặc thêm bộ tăng tốc không phải GPU vào cùng một cluster. Mỗi thiết bị chạy những gì nó làm tốt nhất.

1.7×

thông lượng với PD disaggregation đa nhà cung cấp

chi phí phụ trong định tuyến thống nhất đa nhà cung cấp

Khám phá các kịch bản ›

API Endpoint thống nhất

Cổng hiệu suất

NVIDIA

AMD

Tenstorrent

…

Software Fabric đa nhà cung cấp

Tính năng cốt lõi

Tự động Phân tách

Suy luận phân tán hiệu quả đòi hỏi kết hợp nhiều kỹ thuật, phân bổ tài nguyên GPU tối ưu và lập lịch yêu cầu thông minh. MoAI Inference Framework tự động hóa tất cả dựa trên SLO đã định nghĩa và mẫu lưu lượng thời gian thực.

Tối ưu theo SLO

Chỉ định ràng buộc độ trễ và để framework tự động xác định chiến lược song song hóa tối ưu và phân bổ tài nguyên để tối đa hóa thông lượng trên mỗi đô la.

Phân tách Prefill-Decode

Tách riêng giai đoạn prefill và decode trên các pool GPU khác nhau — bao gồm cả các loại GPU đa dạng — để tối ưu việc sử dụng tài nguyên cho từng đặc tính khối lượng công việc.

Định tuyến nhận biết Prefix Cache

Định tuyến yêu cầu đến các instance đã có sẵn prefix computation trong cache, giảm TTFT lên đến 20 lần và đạt thông lượng 2.2× chỉ với 40% số server.

Định tuyến theo độ dài yêu cầu

Phân loại các yêu cầu đến theo độ dài dự kiến và định tuyến chúng đến pool GPU được tối ưu cho từng loại khối lượng công việc — prompt ngắn đến instance tối ưu độ trễ, ngữ cảnh dài đến instance tối ưu thông lượng.

Tự động mở rộng

Tự động mở rộng và thu hẹp dung lượng suy luận dựa trên mẫu lưu lượng, đảm bảo sử dụng tài nguyên tối ưu và hiệu quả chi phí.

Kiến trúc

Kubernetes Native

MoAI Inference Framework chạy dưới dạng các controller Kubernetes-native — không có sidecar daemon, không có control plane độc quyền. Triển khai bằng Helm, expose thông qua bất kỳ controller tương thích Gateway API Inference Extension nào bao gồm Istio, và để NFD tự động phát hiện các bộ tăng tốc đa dạng trên toàn bộ fleet.

Kubernetes NativeGateway API Inference ExtensionIstio CompatibleHelm ChartsNFD IntegrationRoCE Networking

Mô hình được hỗ trợ

MoAI Inference Framework hoạt động với mọi mô hình được hỗ trợ bởi các engine serving nền tảng (Moreh vLLM, vLLM, SGLang và các engine khác). Bao gồm hầu hết các LLM mã nguồn mở: