Moreh vLLM
Cách nhanh nhất để phục vụ LLM trên GPU AMD
Thay thế vLLM ngay lập tức với thông lượng cao hơn đến 2× trên GPU AMD Instinct. Cùng API, cùng định dạng mô hình — chỉ nhanh hơn. Triển khai trong vài phút với một Docker image duy nhất.
Benchmarks
Hiệu năng đã được chứng minh trên nhiều mô hình
DeepSeek R1 671B · 8× AMD Instinct MI300X
Output token/s chuẩn hóa theo ROCm vLLM, trên các độ dài đầu vào, độ dài đầu ra và mức đồng thời.
Đo bằng công cụ benchmark_serving của vLLM.
Báo cáo đánh giá thêm
Bắt đầu
Triển khai dựa trên Preset
Moreh vLLM đi kèm các preset đã tối ưu cho các mô hình phổ biến và cấu hình phần cứng. Chọn preset, trỏ đến mô hình của bạn và bắt đầu serving — cài đặt song song hóa, bộ nhớ và kernel được xử lý tự động.
Ví dụ triển khai
$ docker run --device /dev/kfd --device /dev/dri \
--network host -v /models:/models \
moreh/moreh-vllm:latest \
serve.sh /models/DeepSeek-R1 \
presets/deepseek-ai-deepseek-r1-amd-mi300x-dp8-moe-ep8.yamlBên trong
Tại sao nhanh hơn
Moreh vLLM thay thế backend tính toán bằng các engine được xây dựng chuyên biệt cho kiến trúc GPU AMD.
Thư viện tùy chỉnh cho GPU AMD
Các thư viện tính toán — bao gồm GEMM, attention, MoE và các phép toán kết hợp — được xây dựng đặc biệt cho kiến trúc GPU AMD.
Tối ưu mô hình
Các kỹ thuật như kết hợp phép toán, thực thi ở mức đồ thị và lượng tử hóa để chạy mỗi mô hình hiệu quả nhất có thể.
Mở rộng đa GPU
Chồng lấp truyền thông/tính toán, cân bằng tải EP và các tối ưu khác để mở rộng trên nhiều GPU trong một server.
Mô hình được hỗ trợ
Được tối ưu cho các LLM mã nguồn mở phổ biến, bao gồm:
Phần cứng được hỗ trợ
Bạn đang sử dụng mô hình riêng?
Moreh cung cấp dịch vụ tối ưu vLLM theo yêu cầu cho các mô hình riêng và fine-tune của bạn trên GPU AMD. Chúng tôi xây dựng Moreh vLLM tùy chỉnh phù hợp với kiến trúc mô hình của bạn, giúp bạn đạt được hiệu năng tương đương mà không cần thêm bất kỳ công việc nào.
Xem cách chúng tôi tối ưu Step3 của StepFun cho AMD MI308X, đạt thông lượng decode cao hơn 1.30× so với NVIDIA H20.
Liên hệ ›