Moreh vLLM Performance Evaluation: DeepSeek V3/R1 671B on AMD Instinct MI300X GPUs

Tổng quan

Moreh phát triển phần mềm cho phép các khối lượng công việc AI đa dạng - từ huấn luyện trước đến suy luận - chạy hiệu quả trên các bộ tăng tốc không phải NVIDIA, với trọng tâm đặc biệt vào AMD GPU.

vLLM là một trong những engine suy luận được áp dụng rộng rãi nhất để vận hành dịch vụ LLM trong môi trường nghiên cứu, doanh nghiệp và sản xuất. Nó được phát triển bởi một cộng đồng mã nguồn mở mạnh mẽ với sự đóng góp từ cả giới học thuật và công nghiệp, đồng thời hỗ trợ rộng rãi các mô hình, phần cứng và kỹ thuật tối ưu hóa khác nhau. AMD cũng đang đóng góp cho dự án để vLLM có thể chạy trên AMD GPU và ngăn xếp phần mềm ROCm. Tuy nhiên, hầu hết các tối ưu hóa trong vLLM vẫn nhắm vào NVIDIA GPU và hiệu năng phần cứng AMD GPU chưa được khai thác đầy đủ.

Moreh vLLM là phiên bản tối ưu hóa của vLLM do chúng tôi phát triển, được thiết kế để mang lại hiệu năng suy luận LLM vượt trội trên AMD GPU. Nó hỗ trợ cùng các mô hình và tính năng như vLLM gốc, đồng thời tối đa hóa hiệu năng tính toán trên kiến trúc AMD CDNA. Điều này đạt được thông qua các thư viện tính toán và truyền thông độc quyền của Moreh, cùng với các tối ưu hóa cấp mô hình và sửa đổi cấp engine vLLM.

Báo cáo kỹ thuật này đánh giá hiệu năng suy luận của mô hình DeepSeek V3/R1 671B - một trong những LLM mã nguồn mở tiên tiến nhất hiện nay - trên Moreh vLLM. Chúng tôi tiến hành kiểm thử toàn diện trên các độ dài đầu vào/đầu ra và mức độ đồng thời khác nhau. So với vLLM gốc, Moreh vLLM đạt thông lượng cao hơn trung bình 1,68 lần (tổng số token đầu ra mỗi giây). Hơn nữa, nó giảm các chỉ số độ trễ (thời gian đến token đầu tiên và thời gian mỗi token đầu ra) trung bình lần lượt 1,75 lần và 1,70 lần. Tóm lại, việc áp dụng Moreh vLLM giải phóng toàn bộ tiềm năng của AMD MI300 series GPU, cho phép chúng hoạt động như một hệ thống suy luận hiệu quả.

AMD Instinct MI300X GPU

AMD Instinct MI300X GPU là một lựa chọn thay thế hấp dẫn cho NVIDIA H100. Nó cung cấp hiệu năng tính toán lý thuyết cao hơn 1,32 lần, dung lượng bộ nhớ lớn hơn 2,4 lần và băng thông bộ nhớ đỉnh cao hơn 1,58 lần so với H100. Đặc biệt, dung lượng và băng thông bộ nhớ lớn hơn đáng kể là lợi thế chính để tối ưu hóa suy luận LLM. Table 1 so sánh các thông số phần cứng chi tiết.

Table 1. Comparison between NVIDIA H100 and AMD MI300X — Table 1. So sánh giữa NVIDIA H100 và AMD MI300X

AMD cũng đã phát hành MI325X và MI355X là các phiên bản kế nhiệm của MI300X, lần lượt là đối thủ cạnh tranh trực tiếp với NVIDIA H200 và B200 GPU. Vì các mô hình thế hệ tiếp theo này cũng dựa trên kiến trúc AMD CDNA3, tất cả các tối ưu hóa trong Moreh vLLM sẽ tiếp tục được áp dụng liền mạch. Chúng tôi dự định công bố kết quả đánh giá hiệu năng trên MI325X và MI355X trong tương lai gần và luôn chào đón các đối tác có thể cung cấp máy chủ phát triển và kiểm thử.

Tối ưu hóa cho DeepSeek V3/R1 671B

Moreh vLLM tích hợp nhiều tối ưu hóa để nâng cao hiệu năng của mô hình DeepSeek 671B, bao gồm nhưng không giới hạn ở:

Lựa chọn GEMM và Attention Kernel tối ưu: Để đạt hiệu năng cao nhất quán trong các tình huống khác nhau (ví dụ: độ dài chuỗi đầu vào/đầu ra và kích thước batch khác nhau), Moreh vLLM tự động chọn kernel GEMM và Attention tối ưu mà không cần profiling trực tuyến và điều chỉnh thủ công.
Tối ưu hóa Fused MoE Kernel: Chúng tôi đã triển khai fused MoE kernel được tối ưu hóa cao, mang lại hiệu năng tốt hơn thư viện AITER của AMD, đặc biệt cho các kích thước batch nhỏ.
Hỗ trợ FP8 KV Cache: Moreh vLLM bao gồm các kernel Multi-head Latent Attention (MLA) cho phép KV cache được lưu trữ và tải ở định dạng FP8. Tối ưu hóa này cải thiện hiệu năng đáng kể, đặc biệt trong các tình huống ngữ cảnh dài.
Hợp nhất Kernel theo chiều dọc và ngang: Moreh vLLM sử dụng cả hợp nhất dọc (ví dụ: fused RoPE kernel) và hợp nhất ngang (ví dụ: gộp nhiều GEMM trong shared expert) để giảm chi phí khởi chạy kernel và cải thiện hiệu quả tính toán.
Sửa đổi cấp engine vLLM: Chúng tôi đã thực hiện các sửa đổi ở cấp engine vLLM để sử dụng AMD GPU hiệu quả hơn, bao gồm tận dụng HIP graph để thực thi kernel được tối ưu hóa.

Thiết lập thí nghiệm

Tất cả các thí nghiệm được thực hiện trên máy chủ MI300X với cấu hình như sau:

Server: Lenovo ThinkSystem SR685a V3
CPU: 2x AMD EPYC 9534 (128 cores in total, 2.45 GHz)
GPU: 8x AMD Instinct MI300X OAM
Main Memory: 2,304 GB (24x 96 GB)
Operating System: Ubuntu 22.04.4 (Linux kernel 5.15.0-25-generic)
ROCm Version: 6.8.5

Chúng tôi sử dụng vLLM mã nguồn mở 0.9.2 (tag v0.9.2 của https://github.com/ROCm/vllm) làm baseline để so sánh. Đây là phiên bản mới nhất có sẵn tại thời điểm kiểm thử. Mô hình DeepSeek được thực thi song song trên 8 GPU của máy chủ với tensor parallelism (TP) bằng 8. Nhờ dung lượng bộ nhớ lớn 192 GB của AMD MI300X, hơn một nửa bộ nhớ GPU vẫn còn trống ngay cả sau khi lưu trữ khoảng 84 tỷ tham số trên mỗi GPU ở định dạng FP8. Điều này cho phép máy chủ xử lý nhiều yêu cầu với mức đồng thời cao, thể hiện lợi thế đáng kể cho các khối lượng công việc AI tạo sinh quy mô lớn. Hiệu năng được đo bằng công cụ benchmark_serving của vLLM. Chúng tôi đã chọn 70 tổ hợp khác nhau của độ dài chuỗi đầu vào (ISL), độ dài chuỗi đầu ra (OSL) và mức đồng thời, như trong Table 2. Thiết lập thí nghiệm được xác định thông qua thảo luận với một trong những khách hàng của chúng tôi tại Hàn Quốc.

Table 2. Various request patterns used for performance measurement — Table 2. Các mẫu yêu cầu khác nhau được sử dụng để đo hiệu năng

Output TPS, TTFT và TPOT

Output tokens per second (TPS), time to first token (TTFT) và time per output token (TPOT) là ba chỉ số chính để đánh giá hiệu năng suy luận LLM. Output tokens per second đo thông lượng tổng thể của hệ thống, cho biết mô hình có thể tạo ra bao nhiêu token trong một giây trên tất cả các yêu cầu đồng thời. Time to first token nắm bắt độ trễ ban đầu - thời gian từ khi yêu cầu được gửi đến khi token đầu tiên được tạo ra. Time per output token cho biết thời gian trung bình để tạo mỗi token tiếp theo sau token đầu tiên. Output tokens per second liên quan trực tiếp đến chi phí dịch vụ (giá trên mỗi token). Hai chỉ số còn lại quan trọng đối với khả năng phản hồi mà người dùng cảm nhận được. Việc đo lường cả ba chỉ số này cung cấp cái nhìn toàn diện về hiệu năng suy luận, cân bằng giữa chi phí và trải nghiệm người dùng.

Figure 1 cho thấy biểu đồ so sánh output tokens per second. Figure 2 và Figure 3 lần lượt trình bày biểu đồ so sánh time to first token trung bình và time per output token trung bình. Dữ liệu thô có thể được tìm thấy trong phụ lục.

Moreh vLLM đạt tổng output tokens per second cao hơn 1,68 lần, time to first token thấp hơn 1,75 lần và time per output token thấp hơn 1,7 lần so với vLLM gốc. Điều này chứng minh rằng chỉ cần thay thế phần mềm bằng Moreh vLLM trên cùng hệ thống AMD MI300 series GPU là có thể giảm chi phí đồng thời cải thiện trải nghiệm người dùng.

Figure 1. Output tokens per second for various request patterns. Higher is better. Moreh vLLM shows an average of 1.68x higher performance. — Figure 1. Output tokens per second cho các mẫu yêu cầu khác nhau. Cao hơn là tốt hơn. Moreh vLLM cho thấy hiệu năng cao hơn trung bình 1,68 lần.

Figure 2. Mean time to first token for various request patterns. Lower is better. Moreh vLLM shows an average of 1.75x lower latency. — Figure 2. Time to first token trung bình cho các mẫu yêu cầu khác nhau. Thấp hơn là tốt hơn. Moreh vLLM cho thấy độ trễ thấp hơn trung bình 1,75 lần.

Figure 3. Mean time per output token for various request patterns. Lower is better. Moreh vLLM shows an average of 1.70x lower latency. — Figure 3. Time per output token trung bình cho các mẫu yêu cầu khác nhau. Thấp hơn là tốt hơn. Moreh vLLM cho thấy độ trễ thấp hơn trung bình 1,70 lần.

Sự đánh đổi giữa độ trễ và thông lượng

Suy luận LLM có sự đánh đổi cố hữu giữa độ trễ và thông lượng. Tăng mức đồng thời tối đa của một instance vLLM sẽ cải thiện thông lượng nhưng cũng tăng độ trễ, trong khi giảm mức đồng thời sẽ cải thiện độ trễ nhưng giảm thông lượng. Figure 4 minh họa các đường cong đánh đổi độ trễ-thông lượng cho vLLM gốc và Moreh vLLM trên các mẫu yêu cầu khác nhau (độ dài chuỗi đầu vào/đầu ra). Nhìn chung, đồ thị càng dịch về phía trên bên trái, đặc tính hiệu năng càng tốt.

Figure 4. Trade-off curves between time per output token (latency) and output tokens per second (throughput), for different input/output sequence lengths. — Figure 4. Đường cong đánh đổi giữa time per output token (độ trễ) và output tokens per second (thông lượng), cho các độ dài chuỗi đầu vào/đầu ra khác nhau.

Kết luận

Moreh vLLM kết hợp nhiều kỹ thuật khác nhau để tối ưu hóa suy luận cho mô hình DeepSeek V3/R1, bao gồm các thư viện GPU độc quyền, tối ưu hóa cấp mô hình và sửa đổi engine vLLM. Kết quả là, Moreh vLLM mang lại cải thiện hiệu năng đáng kể so với vLLM mã nguồn mở gốc trên các chỉ số suy luận khác nhau. Bằng cách áp dụng Moreh vLLM trên máy chủ AMD MI300 series GPU, dịch vụ LLM có thể giảm chi phí đồng thời cải thiện độ trễ. Moreh cũng cung cấp dịch vụ tối ưu hóa mô hình AI độc quyền của khách hàng trên AMD GPU và cung cấp vLLM theo yêu cầu cho mô hình đó.

Phụ lục: Dữ liệu thô

(Vui lòng tham khảo tệp PDF.)

Đánh giá hiệu năng Moreh vLLM trên AMD Instinct MI300X GPU: DeepSeek V3/R1 671B