Moreh vLLM

Cách nhanh nhất để phục vụ LLM trên GPU AMD

Thay thế vLLM ngay lập tức với thông lượng cao hơn đến 2× trên GPU AMD Instinct. Cùng API, cùng định dạng mô hình — chỉ nhanh hơn. Triển khai trong vài phút với một Docker image duy nhất.

Benchmarks

Hiệu năng đã được chứng minh trên nhiều mô hình

DeepSeek R1 671B · 8× AMD Instinct MI300X

Output token/s chuẩn hóa theo ROCm vLLM, trên các độ dài đầu vào, độ dài đầu ra và mức đồng thời.

Moreh vLLM 0.9.0
ROCm vLLM 0.9.2
SGLang 0.4.8
TPS đầu ra chuẩn hóa (ROCm vLLM = 1)00.51.01.52.02.5(1K, 1K, 1)(1K, 1K, 8)(1K, 1K, 32)(4K, 1K, 1)(4K, 1K, 8)(4K, 1K, 32)(32K, 1K, 1)(32K, 1K, 8)(32K, 1K, 32)(độ dài đầu vào, độ dài đầu ra, mức đồng thời)

Đo bằng công cụ benchmark_serving của vLLM.

Bắt đầu

Triển khai dựa trên Preset

Moreh vLLM đi kèm các preset đã tối ưu cho các mô hình phổ biến và cấu hình phần cứng. Chọn preset, trỏ đến mô hình của bạn và bắt đầu serving — cài đặt song song hóa, bộ nhớ và kernel được xử lý tự động.

Ví dụ triển khai

$ docker run --device /dev/kfd --device /dev/dri \
  --network host -v /models:/models \
  moreh/moreh-vllm:latest \
  serve.sh /models/DeepSeek-R1 \
    presets/deepseek-ai-deepseek-r1-amd-mi300x-dp8-moe-ep8.yaml

Bên trong

Tại sao nhanh hơn

Moreh vLLM thay thế backend tính toán bằng các engine được xây dựng chuyên biệt cho kiến trúc GPU AMD.

Thư viện tùy chỉnh cho GPU AMD

Các thư viện tính toán — bao gồm GEMM, attention, MoE và các phép toán kết hợp — được xây dựng đặc biệt cho kiến trúc GPU AMD.

Tối ưu mô hình

Các kỹ thuật như kết hợp phép toán, thực thi ở mức đồ thị và lượng tử hóa để chạy mỗi mô hình hiệu quả nhất có thể.

Mở rộng đa GPU

Chồng lấp truyền thông/tính toán, cân bằng tải EP và các tối ưu khác để mở rộng trên nhiều GPU trong một server.

Mô hình được hỗ trợ

Được tối ưu cho các LLM mã nguồn mở phổ biến, bao gồm:

DeepSeekDeepSeekGPT-OSSGPT-OSSLlamaLlamaQwenQwenMistralMistralGLMGLMStepStepvà nhiều hơn nữa

Phần cứng được hỗ trợ

AMD Instinct MI355XAMD Instinct MI325XAMD Instinct MI308XAMD Instinct MI300XAMD Instinct MI250

Bạn đang sử dụng mô hình riêng?

Moreh cung cấp dịch vụ tối ưu vLLM theo yêu cầu cho các mô hình riêng và fine-tune của bạn trên GPU AMD. Chúng tôi xây dựng Moreh vLLM tùy chỉnh phù hợp với kiến trúc mô hình của bạn, giúp bạn đạt được hiệu năng tương đương mà không cần thêm bất kỳ công việc nào.

Xem cách chúng tôi tối ưu Step3 của StepFun cho AMD MI308X, đạt thông lượng decode cao hơn 1.30× so với NVIDIA H20.

Liên hệ ›