Solution

Một cluster suy luận, mọi GPU

Trung tâm dữ liệu AI tích lũy GPU qua các đợt mua sắm — nhà cung cấp, kiến trúc và thế hệ khác nhau. Phần mềm truyền thống không thể vận hành chúng cùng nhau, khiến GPU cũ bị bỏ không và ràng buộc bạn với một nhà cung cấp duy nhất. Phần mềm của Moreh hợp nhất mọi chip thành một hệ thống suy luận duy nhất.

Tư vấn cluster đa dạng

Ba kịch bản, một nền tảng

Kịch bản 1

Thế hệ cũ + Thế hệ mới

e.g., H100 + B200

Đưa GPU cũ trở lại hoạt động — giảm tải từ GPU mới và nâng cao hiệu quả speculative decoding, để mọi thế hệ đều đóng góp vào thông lượng cluster.

Kịch bản 2

NVIDIA + AMD

e.g., H200 + MI355X

Định tuyến suy luận trên GPU NVIDIA và AMD từ một API endpoint duy nhất, và phân tách prefill với decode giữa các nhà cung cấp để đạt thông lượng cao hơn.

Kịch bản 3

GPU + Bộ tăng tốc AI

e.g., GPU + Tenstorrent

Kết hợp GPU với các bộ tăng tốc AI chuyên dụng như chip Tenstorrent, sử dụng mỗi loại cho khối lượng công việc mà chúng giỏi nhất.

Công nghệ hỗ trợ

Tất cả các tính năng này được tích hợp trong MoAI Inference Framework — một nền tảng duy nhất điều phối GPU đa dạng ở quy mô cluster.

Bố trí GPU nhận biết mô hình

Mô hình lớn trên GPU mới, mô hình nhỏ trên GPU cũ

Tự động gán mô hình vào pool GPU phù hợp nhất dựa trên kích thước mô hình và khả năng phần cứng — chạy mô hình chủ lực trên GPU thế hệ mới nhất trong khi GPU cũ xử lý mô hình nhẹ hơn.

Phân tách Prefill-Decode đa nhà cung cấp

Nhà cung cấp A cho prefill, nhà cung cấp B cho decode

Sử dụng GPU NVIDIA cho prefill và GPU AMD cho decode, đạt thông lượng cao hơn 1.7× so với cấu hình cùng nhà cung cấp. Được hỗ trợ bởi thư viện truyền thông RDMA đa nhà cung cấp cho truyền dữ liệu trực tiếp GPU-to-GPU qua RoCE.

Phân tách Prefill-Decode nhận biết khối lượng công việc

GPU giàu tính toán cho prefill, GPU băng thông cao cho decode

Kết hợp mỗi giai đoạn suy luận với GPU phù hợp — prefill cần nhiều tính toán trên một chip, decode cần băng thông cao trên chip khác. Hoạt động với các biến thể chip trong cùng nhà cung cấp, như H100 + H20 hoặc MI300X + MI308X.

Đọc thêm ›

Định tuyến theo độ dài yêu cầu

Chuỗi ngắn đến GPU cũ, chuỗi dài đến GPU mới

Định tuyến yêu cầu đến theo độ dài chuỗi đến pool GPU phù hợp nhất — giữ GPU cũ hoạt động hiệu quả với khối lượng công việc ngắn trong khi GPU mới xử lý yêu cầu ngữ cảnh dài.

Engine Prefill đa node (SLOPE)

GPU cũ cho prefill, GPU mới cho decode

Phân phối prefill ngữ cảnh dài trên nhiều node GPU thế hệ cũ, giải phóng GPU mới để tập trung vào decode.

Đọc thêm ›

Huấn luyện Draft Model trực tuyến

GPU cũ huấn luyện draft model, GPU mới decode nhanh hơn

Liên tục cải thiện draft model trên GPU cũ để nâng cao hiệu quả speculative decoding trên GPU mới — tận dụng mọi thế hệ.

Đọc thêm ›

Tự động phát hiện Kubernetes NFD

Tự động phát hiện và phân loại mọi bộ tăng tốc

Tự động phát hiện và phân loại GPU qua Kubernetes Node Feature Discovery, với định tuyến thống nhất trên tất cả bộ tăng tốc được phát hiện.

Sẵn sàng hợp nhất fleet GPU của bạn?

Trao đổi với đội ngũ của chúng tôi về việc triển khai MoAI Inference Framework trên hạ tầng đa dạng của bạn.

Tư vấn cluster đa dạng Tìm hiểu về MoAI Inference Framework