Phần mềm toàn diện

MoAI Inference Framework

Phần mềm suy luận phân tán ở quy mô trung tâm dữ liệu

Phục vụ các mô hình lớn trên mọi GPU bạn có — bất kể nhà cung cấp, thế hệ hay kiến trúc — thông qua một API endpoint duy nhất. MoAI Inference Framework tự động phân bổ tài nguyên, định tuyến yêu cầu và mở rộng dung lượng để cluster đạt thông lượng tối đa với độ trễ thấp nhất.

Yêu cầu Demo→Xem tài liệu

Điểm khác biệt chính

Một cluster, mọi GPU

Hầu hết các stack suy luận đều ràng buộc bạn với một nhà cung cấp duy nhất. MoAI Inference Framework phá vỡ ràng buộc đó — phân tách prefill và decode trên các chip từ nhiều nhà cung cấp khác nhau, tận dụng giá trị còn lại của GPU cũ, hoặc thêm bộ tăng tốc không phải GPU vào cùng một cluster. Mỗi thiết bị chạy những gì nó làm tốt nhất.

1.7×thông lượng với PD disaggregation đa nhà cung cấp

0chi phí phụ trong định tuyến thống nhất đa nhà cung cấp

Khám phá các kịch bản→

API Endpoint thống nhất

Cổng hiệu suất

NVIDIA

AMD

Tenstorrent

…

Software Fabric đa nhà cung cấp

Tính năng cốt lõi

Tự động Phân tách

Suy luận phân tán hiệu quả đòi hỏi kết hợp nhiều kỹ thuật, phân bổ tài nguyên GPU tối ưu và lập lịch yêu cầu thông minh. MoAI Inference Framework tự động hóa tất cả dựa trên SLO đã định nghĩa và mẫu lưu lượng thời gian thực.

Tối ưu theo SLO

Chỉ định ràng buộc độ trễ và để framework tự động xác định chiến lược song song hóa tối ưu và phân bổ tài nguyên để tối đa hóa thông lượng trên mỗi đô la.

Phân tách Prefill-Decode

Tách riêng giai đoạn prefill và decode trên các pool GPU khác nhau — bao gồm cả các loại GPU đa dạng — để tối ưu việc sử dụng tài nguyên cho từng đặc tính khối lượng công việc.

Định tuyến nhận biết Prefix Cache

Định tuyến yêu cầu đến các instance đã có sẵn prefix computation trong cache, giảm TTFT lên đến 20 lần và đạt thông lượng 2.2× chỉ với 40% số server.

Định tuyến theo độ dài yêu cầu

Phân loại các yêu cầu đến theo độ dài dự kiến và định tuyến chúng đến pool GPU được tối ưu cho từng loại khối lượng công việc — prompt ngắn đến instance tối ưu độ trễ, ngữ cảnh dài đến instance tối ưu thông lượng.

Tự động mở rộng

Tự động mở rộng và thu hẹp dung lượng suy luận dựa trên mẫu lưu lượng, đảm bảo sử dụng tài nguyên tối ưu và hiệu quả chi phí.

Kiến trúc

Khối xây dựng

MoAI Inference Framework được cấu thành từ các thành phần chuyên dụng, phối hợp cùng nhau để mang lại suy luận tối ưu trên các bộ tăng tốc không đồng nhất.

MoAI Performance Gateway

Phân phối khối lượng công việc thông minh giữa các bộ tăng tốc không đồng nhất.

Tìm hiểu thêm→

MoAI Fabric

GPU memory fabric định nghĩa bằng phần mềm, đa nhà cung cấp cho truyền KV cache.

Tìm hiểu thêm→

MoAI Autopilot

Cấu hình ngăn xếp serving và tối ưu hóa liên tục dựa trên SLO.

Sắp ra mắt

Moreh vLLM for AMD

Thay thế vLLM với thông lượng cao hơn tới 2 lần trên GPU AMD.

Tìm hiểu thêm→

Moreh vLLM for Tenstorrent

Phục vụ vLLM hiệu suất cao trên bộ tăng tốc Tenstorrent.

Tìm hiểu thêm→

Models

Mô hình được hỗ trợ

MoAI Inference Framework hoạt động với mọi mô hình được hỗ trợ bởi các engine serving nền tảng (Moreh vLLM, vLLM, SGLang và các engine khác). Bao gồm hầu hết các LLM mã nguồn mở:

Hardware

Phần cứng được hỗ trợ

Bộ tăng tốc

NVIDIA

AMD

Tenstorrent

Mạng

RDMA interconnect