Solution
Một cluster suy luận, mọi GPU
Trung tâm dữ liệu AI tích lũy GPU qua các đợt mua sắm — nhà cung cấp, kiến trúc và thế hệ khác nhau. Phần mềm truyền thống không thể vận hành chúng cùng nhau, khiến GPU cũ bị bỏ không và ràng buộc bạn với một nhà cung cấp duy nhất. Phần mềm của Moreh hợp nhất mọi chip thành một hệ thống suy luận duy nhất.
Ba kịch bản, một nền tảng
Thế hệ cũ + Thế hệ mới
e.g., H100 + B200
Đưa GPU cũ trở lại hoạt động — giảm tải từ GPU mới và nâng cao hiệu quả speculative decoding, để mọi thế hệ đều đóng góp vào thông lượng cluster.
NVIDIA + AMD
e.g., H200 + MI355X
Định tuyến suy luận trên GPU NVIDIA và AMD từ một API endpoint duy nhất, và phân tách prefill với decode giữa các nhà cung cấp để đạt thông lượng cao hơn.
GPU + Bộ tăng tốc AI
e.g., GPU + Tenstorrent
Kết hợp GPU với các bộ tăng tốc AI chuyên dụng như chip Tenstorrent, sử dụng mỗi loại cho khối lượng công việc mà chúng giỏi nhất.
Công nghệ hỗ trợ
Tất cả các tính năng này được tích hợp trong MoAI Inference Framework — một nền tảng duy nhất điều phối GPU đa dạng ở quy mô cluster.
Bố trí GPU nhận biết mô hình
Mô hình lớn trên GPU mới, mô hình nhỏ trên GPU cũ
Tự động gán mô hình vào pool GPU phù hợp nhất dựa trên kích thước mô hình và khả năng phần cứng — chạy mô hình chủ lực trên GPU thế hệ mới nhất trong khi GPU cũ xử lý mô hình nhẹ hơn.
Phân tách Prefill-Decode đa nhà cung cấp
Nhà cung cấp A cho prefill, nhà cung cấp B cho decode
Sử dụng GPU NVIDIA cho prefill và GPU AMD cho decode, đạt thông lượng cao hơn 1.7× so với cấu hình cùng nhà cung cấp. Được hỗ trợ bởi thư viện truyền thông RDMA đa nhà cung cấp cho truyền dữ liệu trực tiếp GPU-to-GPU qua RoCE.
Phân tách Prefill-Decode nhận biết khối lượng công việc
GPU giàu tính toán cho prefill, GPU băng thông cao cho decode
Kết hợp mỗi giai đoạn suy luận với GPU phù hợp — prefill cần nhiều tính toán trên một chip, decode cần băng thông cao trên chip khác. Hoạt động với các biến thể chip trong cùng nhà cung cấp, như H100 + H20 hoặc MI300X + MI308X.
Đọc thêm ›Định tuyến theo độ dài yêu cầu
Chuỗi ngắn đến GPU cũ, chuỗi dài đến GPU mới
Định tuyến yêu cầu đến theo độ dài chuỗi đến pool GPU phù hợp nhất — giữ GPU cũ hoạt động hiệu quả với khối lượng công việc ngắn trong khi GPU mới xử lý yêu cầu ngữ cảnh dài.
Engine Prefill đa node (SLOPE)
GPU cũ cho prefill, GPU mới cho decode
Phân phối prefill ngữ cảnh dài trên nhiều node GPU thế hệ cũ, giải phóng GPU mới để tập trung vào decode.
Đọc thêm ›Huấn luyện Draft Model trực tuyến
GPU cũ huấn luyện draft model, GPU mới decode nhanh hơn
Liên tục cải thiện draft model trên GPU cũ để nâng cao hiệu quả speculative decoding trên GPU mới — tận dụng mọi thế hệ.
Đọc thêm ›Tự động phát hiện Kubernetes NFD
Tự động phát hiện và phân loại mọi bộ tăng tốc
Tự động phát hiện và phân loại GPU qua Kubernetes Node Feature Discovery, với định tuyến thống nhất trên tất cả bộ tăng tốc được phát hiện.
Sẵn sàng hợp nhất fleet GPU của bạn?
Trao đổi với đội ngũ của chúng tôi về việc triển khai MoAI Inference Framework trên hạ tầng đa dạng của bạn.