Moreh vLLM

Cách nhanh nhất để phục vụ LLM trên GPU AMD

Thay thế vLLM ngay lập tức với thông lượng cao hơn đến 2× trên GPU AMD Instinct. Cùng API, cùng định dạng mô hình — chỉ nhanh hơn. Triển khai trong vài phút với một Docker image duy nhất.

Yêu cầu Demo Xem Benchmark

Benchmarks

Hiệu năng đã được chứng minh trên nhiều mô hình

DeepSeek R1 671B · 8× AMD Instinct MI300X

Output token/s chuẩn hóa theo ROCm vLLM, trên các độ dài đầu vào, độ dài đầu ra và mức đồng thời.

Moreh vLLM 0.9.0

ROCm vLLM 0.9.2

SGLang 0.4.8

Đo bằng công cụ benchmark_serving của vLLM.

Báo cáo đánh giá thêm

Moreh khai phá tiềm năng AMD MI300X: Suy luận DeepSeek R1 nhanh hơn 1,5 lần so với SGLang (InferenceMAX)Tối ưu hóa suy luận Step3: Decode throughput trên AMD Instinct MI308X cao hơn 1,30 lần so với NVIDIA H20 Tối ưu hóa suy luận LLM cho nhà mạng: Dung lượng phục vụ trên AMD MI300X cao hơn 1,38 lần Đánh giá hiệu suất Moreh vLLM: Llama 3.3 70B trên AMD Instinct MI300X GPU Đánh giá hiệu năng Moreh vLLM trên AMD Instinct MI300X GPU: DeepSeek V3/R1 671B

Xem tất cả benchmark ›

Bắt đầu

Triển khai dựa trên Preset

Moreh vLLM đi kèm các preset đã tối ưu cho các mô hình phổ biến và cấu hình phần cứng. Chọn preset, trỏ đến mô hình của bạn và bắt đầu serving — cài đặt song song hóa, bộ nhớ và kernel được xử lý tự động.

Ví dụ triển khai

$ docker run --device /dev/kfd --device /dev/dri \
  --network host -v /models:/models \
  moreh/moreh-vllm:latest \
  serve.sh /models/DeepSeek-R1 \
    presets/deepseek-ai-deepseek-r1-amd-mi300x-dp8-moe-ep8.yaml

Bên trong

Tại sao nhanh hơn

Moreh vLLM thay thế backend tính toán bằng các engine được xây dựng chuyên biệt cho kiến trúc GPU AMD.

Thư viện tùy chỉnh cho GPU AMD

Các thư viện tính toán — bao gồm GEMM, attention, MoE và các phép toán kết hợp — được xây dựng đặc biệt cho kiến trúc GPU AMD.

Tối ưu mô hình

Các kỹ thuật như kết hợp phép toán, thực thi ở mức đồ thị và lượng tử hóa để chạy mỗi mô hình hiệu quả nhất có thể.

Mở rộng đa GPU

Chồng lấp truyền thông/tính toán, cân bằng tải EP và các tối ưu khác để mở rộng trên nhiều GPU trong một server.

Mô hình được hỗ trợ

Được tối ưu cho các LLM mã nguồn mở phổ biến, bao gồm:

DeepSeek

GPT-OSS

Llama

Qwen

Mistral

GLM

Stepvà nhiều hơn nữa

Phần cứng được hỗ trợ

AMD Instinct MI355XAMD Instinct MI325XAMD Instinct MI308XAMD Instinct MI300XAMD Instinct MI250

Bạn đang sử dụng mô hình riêng?

Moreh cung cấp dịch vụ tối ưu vLLM theo yêu cầu cho các mô hình riêng và fine-tune của bạn trên GPU AMD. Chúng tôi xây dựng Moreh vLLM tùy chỉnh phù hợp với kiến trúc mô hình của bạn, giúp bạn đạt được hiệu năng tương đương mà không cần thêm bất kỳ công việc nào.

Chúng tôi đã thực hiện điều này cho các khách hàng bao gồm StepFun (Step3 321B trên MI308X, thông lượng decode cao hơn 1.30× so với NVIDIA H20) và một nhà mạng lớn tại Hàn Quốc (mô hình 7.8B của công ty liên kết trên MI300X, dung lượng serving cao hơn 1.38× so với NVIDIA H100).

Liên hệ ›