MoAI Inference Framework
Phần mềm suy luận phân tán ở quy mô trung tâm dữ liệu
Phục vụ các mô hình lớn trên mọi GPU bạn có — bất kể nhà cung cấp, thế hệ hay kiến trúc — thông qua một API endpoint duy nhất. MoAI Inference Framework tự động phân bổ tài nguyên, định tuyến yêu cầu và mở rộng dung lượng để cluster đạt thông lượng tối đa với độ trễ thấp nhất.
Một cluster, mọi GPU
Hầu hết các stack suy luận đều ràng buộc bạn với một nhà cung cấp duy nhất. MoAI Inference Framework phá vỡ ràng buộc đó — phân tách prefill và decode trên các chip từ nhiều nhà cung cấp khác nhau, tận dụng giá trị còn lại của GPU cũ, hoặc thêm bộ tăng tốc không phải GPU vào cùng một cluster. Mỗi thiết bị chạy những gì nó làm tốt nhất.
API Endpoint thống nhất
Cổng hiệu suất
NVIDIA
AMD
Tenstorrent
Software Fabric đa nhà cung cấp
Tự động Phân tách
Suy luận phân tán hiệu quả đòi hỏi kết hợp nhiều kỹ thuật, phân bổ tài nguyên GPU tối ưu và lập lịch yêu cầu thông minh. MoAI Inference Framework tự động hóa tất cả dựa trên SLO đã định nghĩa và mẫu lưu lượng thời gian thực.
Tối ưu theo SLO
Chỉ định ràng buộc độ trễ và để framework tự động xác định chiến lược song song hóa tối ưu và phân bổ tài nguyên để tối đa hóa thông lượng trên mỗi đô la.
Phân tách Prefill-Decode
Tách riêng giai đoạn prefill và decode trên các pool GPU khác nhau — bao gồm cả các loại GPU đa dạng — để tối ưu việc sử dụng tài nguyên cho từng đặc tính khối lượng công việc.
Định tuyến nhận biết Prefix Cache
Định tuyến yêu cầu đến các instance đã có sẵn prefix computation trong cache, giảm TTFT lên đến 20 lần và đạt thông lượng 2.2× chỉ với 40% số server.
Định tuyến theo độ dài yêu cầu
Phân loại các yêu cầu đến theo độ dài dự kiến và định tuyến chúng đến pool GPU được tối ưu cho từng loại khối lượng công việc — prompt ngắn đến instance tối ưu độ trễ, ngữ cảnh dài đến instance tối ưu thông lượng.
Tự động mở rộng
Tự động mở rộng và thu hẹp dung lượng suy luận dựa trên mẫu lưu lượng, đảm bảo sử dụng tài nguyên tối ưu và hiệu quả chi phí.
Khối xây dựng
MoAI Inference Framework được cấu thành từ các thành phần chuyên dụng, phối hợp cùng nhau để mang lại suy luận tối ưu trên các bộ tăng tốc không đồng nhất.
MoAI Performance Gateway
Phân phối khối lượng công việc thông minh giữa các bộ tăng tốc không đồng nhất.
MoAI Fabric
GPU memory fabric định nghĩa bằng phần mềm, đa nhà cung cấp cho truyền KV cache.
MoAI Autopilot
Cấu hình ngăn xếp serving và tối ưu hóa liên tục dựa trên SLO.
Moreh vLLM for AMD
Thay thế vLLM với thông lượng cao hơn tới 2 lần trên GPU AMD.
Moreh vLLM for Tenstorrent
Phục vụ vLLM hiệu suất cao trên bộ tăng tốc Tenstorrent.
Mô hình được hỗ trợ
MoAI Inference Framework hoạt động với mọi mô hình được hỗ trợ bởi các engine serving nền tảng (Moreh vLLM, vLLM, SGLang và các engine khác). Bao gồm hầu hết các LLM mã nguồn mở:
Phần cứng được hỗ trợ
Bộ tăng tốc
Mạng