‹ Back to Blog

Technical Report

Đánh giá hiệu suất Moreh vLLM: Llama 3.3 70B trên AMD Instinct MI300X GPU

August 30, 2025

Tài liệu này được dịch tự động bằng AI. Nội dung có thể chưa chính xác, vui lòng tham khảo bản gốc tiếng Anh nếu cần. Xem bản gốc tiếng Anh

Tải xuống báo cáo kỹ thuật đầy đủ dạng PDF

Tổng quan

Moreh phát triển phần mềm cho phép các khối lượng công việc AI đa dạng - từ tiền huấn luyện đến suy luận - chạy hiệu quả trên các bộ tăng tốc ngoài NVIDIA, với trọng tâm đặc biệt vào AMD GPU.

vLLM là một trong những công cụ suy luận được áp dụng rộng rãi nhất để chạy các dịch vụ LLM trong môi trường nghiên cứu, doanh nghiệp và sản xuất. Nó được phát triển bởi một cộng đồng mã nguồn mở mạnh mẽ với sự đóng góp từ cả học thuật và công nghiệp, đồng thời hỗ trợ rộng rãi nhiều mô hình, phần cứng và kỹ thuật tối ưu hóa khác nhau. AMD cũng đang đóng góp vào dự án để vLLM có thể chạy trên AMD GPU và ngăn xếp phần mềm ROCm. Tuy nhiên, hầu hết các tối ưu hóa trong vLLM vẫn nhắm vào NVIDIA GPU và hiệu năng của phần cứng AMD GPU chưa được khai thác đầy đủ.

Moreh vLLM là phiên bản tối ưu hóa của vLLM do chúng tôi phát triển, được thiết kế để mang lại hiệu suất suy luận LLM vượt trội trên AMD GPU. Nó hỗ trợ cùng các mô hình và tính năng như vLLM gốc, đồng thời tối đa hóa hiệu suất tính toán trên kiến trúc AMD CDNA. Điều này đạt được thông qua các thư viện tính toán và truyền thông độc quyền của Moreh, cùng với các tối ưu hóa ở cấp mô hình và các sửa đổi ở cấp engine vLLM.

Báo cáo kỹ thuật này đánh giá hiệu suất suy luận của mô hình Llama 3.3 70B của Meta trên Moreh vLLM. Chúng tôi tiến hành thử nghiệm toàn diện trên nhiều độ dài đầu vào/đầu ra và mức độ đồng thời khác nhau. So với vLLM gốc, Moreh vLLM đạt thông lượng cao hơn trung bình 1,68 lần (tổng số output token mỗi giây). Hơn nữa, nó giảm các chỉ số độ trễ (thời gian đến token đầu tiên và thời gian cho mỗi output token) trung bình lần lượt 2,02 lần và 1,59 lần. Tóm lại, việc áp dụng Moreh vLLM khai phóng toàn bộ tiềm năng của AMD MI300 series GPU, cho phép chúng hoạt động như một hệ thống suy luận hiệu quả.

AMD Instinct MI300X GPU

AMD Instinct MI300X GPU là một giải pháp thay thế hấp dẫn cho NVIDIA H100. Nó cung cấp hiệu suất tính toán lý thuyết cao hơn 1,32 lần, dung lượng bộ nhớ lớn hơn 2,4 lần và băng thông bộ nhớ đỉnh cao hơn 1,58 lần so với H100. Đặc biệt, dung lượng và băng thông bộ nhớ lớn hơn đáng kể là lợi thế lớn cho việc tối ưu hóa suy luận LLM. Bảng 1 so sánh chi tiết các thông số kỹ thuật phần cứng.

Bảng 1. So sánh giữa NVIDIA H100 và AMD MI300X
Bảng 1. So sánh giữa NVIDIA H100 và AMD MI300X

AMD cũng đã phát hành MI325X và MI355X là các sản phẩm kế nhiệm của MI300X, cạnh tranh trực tiếp với GPU H200 và B200 của NVIDIA. Vì các mẫu thế hệ tiếp theo này cũng dựa trên kiến trúc AMD CDNA3, tất cả các tối ưu hóa trong Moreh vLLM sẽ tiếp tục được áp dụng liền mạch. Chúng tôi dự kiến công bố kết quả đánh giá hiệu suất trên MI325X và MI355X trong tương lai gần và luôn sẵn sàng hợp tác với các đối tác có thể cung cấp máy chủ phát triển và thử nghiệm.

Thiết lập thí nghiệm

Tất cả các thí nghiệm được thực hiện trên máy chủ MI300X với cấu hình như sau:

  • Server: Lenovo ThinkSystem SR685a V3
  • CPU: 2x AMD EPYC 9534 (128 cores in total, 2.45 GHz)
  • GPU: 8x AMD Instinct MI300X OAM
  • Main Memory: 2,304 GB (24x 96 GB)
  • Operating System: Ubuntu 22.04.4 (Linux kernel 5.15.0-25-generic)
  • ROCm Version: 6.8.5

Chúng tôi sử dụng vLLM mã nguồn mở phiên bản 0.9.2 (tag v0.9.2 của https://github.com/ROCm/vllm) làm baseline để so sánh. Đây là phiên bản mới nhất có sẵn tại thời điểm thử nghiệm. Mô hình Llama 3.3 70B được thực thi song song trên 2 GPU của máy chủ với tensor parallelism (TP) bằng 2. Hiệu suất được đo bằng công cụ benchmark_serving của vLLM. Chúng tôi chọn 64 tổ hợp khác nhau của độ dài chuỗi đầu vào (ISL), độ dài chuỗi đầu ra (OSL) và mức đồng thời, như trong Bảng 2. Thiết lập thí nghiệm được xác định thông qua thảo luận với một trong những khách hàng của chúng tôi tại Hàn Quốc.

Bảng 2. Các mẫu yêu cầu khác nhau được sử dụng để đo hiệu suất
Bảng 2. Các mẫu yêu cầu khác nhau được sử dụng để đo hiệu suất

Output TPS, TTFT và TPOT

Output tokens per second (TPS), time to first token (TTFT) và time per output token (TPOT) là ba chỉ số quan trọng để đánh giá hiệu suất suy luận LLM. Output tokens per second đo thông lượng tổng thể của hệ thống, cho biết mô hình có thể tạo ra bao nhiêu token trong một giây trên tất cả các yêu cầu đồng thời. Time to first token đo độ trễ ban đầu - thời gian từ khi gửi yêu cầu cho đến khi token đầu tiên được tạo ra. Time per output token cho biết thời gian trung bình để tạo ra mỗi token tiếp theo sau token đầu tiên. Output tokens per second liên quan trực tiếp đến chi phí dịch vụ (chi phí trên mỗi token). Hai chỉ số còn lại quan trọng đối với khả năng phản hồi mà người dùng cảm nhận được. Khi đo lường kết hợp ba chỉ số này, chúng ta có được cái nhìn toàn diện về hiệu suất suy luận, cân bằng giữa chi phí và trải nghiệm người dùng.

Hình 1 hiển thị biểu đồ so sánh output tokens per second. Hình 2 và Hình 3 lần lượt trình bày biểu đồ so sánh time to first token trung bình và time per output token trung bình. Dữ liệu thô có thể được tìm thấy trong phần phụ lục.

Moreh vLLM đạt tổng output tokens per second cao hơn 1,68 lần, time to first token thấp hơn 2,02 lần và time per output token thấp hơn 1,59 lần so với vLLM gốc. Đặc biệt, có thể thấy rằng time to first token cho các chuỗi đầu vào dài giảm khoảng 3-4 lần. Điều này chứng minh rằng chỉ cần thay thế phần mềm bằng Moreh vLLM trên cùng một hệ thống AMD MI300 series GPU là có thể giảm chi phí đồng thời cải thiện trải nghiệm người dùng.

Hình 1. Output tokens per second cho các mẫu yêu cầu khác nhau. Càng cao càng tốt. Moreh vLLM cho thấy hiệu suất cao hơn trung bình 1,68 lần.
Hình 1. Output tokens per second cho các mẫu yêu cầu khác nhau. Càng cao càng tốt. Moreh vLLM cho thấy hiệu suất cao hơn trung bình 1,68 lần.
Hình 2. Time to first token trung bình cho các mẫu yêu cầu khác nhau. Càng thấp càng tốt. Moreh vLLM cho thấy độ trễ thấp hơn trung bình 2,02 lần.
Hình 2. Time to first token trung bình cho các mẫu yêu cầu khác nhau. Càng thấp càng tốt. Moreh vLLM cho thấy độ trễ thấp hơn trung bình 2,02 lần.
Hình 3. Time per output token trung bình cho các mẫu yêu cầu khác nhau. Càng thấp càng tốt. Moreh vLLM cho thấy độ trễ thấp hơn trung bình 1,59 lần.
Hình 3. Time per output token trung bình cho các mẫu yêu cầu khác nhau. Càng thấp càng tốt. Moreh vLLM cho thấy độ trễ thấp hơn trung bình 1,59 lần.

Sự đánh đổi giữa độ trễ và thông lượng

Suy luận LLM liên quan đến sự đánh đổi vốn có giữa độ trễ và thông lượng. Tăng mức đồng thời tối đa của một phiên bản vLLM sẽ cải thiện thông lượng nhưng cũng tăng độ trễ, trong khi giảm mức đồng thời sẽ cải thiện độ trễ nhưng làm giảm thông lượng. Hình 4 minh họa các đường cong đánh đổi độ trễ-thông lượng cho vLLM gốc và Moreh vLLM trên các mẫu yêu cầu khác nhau (độ dài chuỗi đầu vào/đầu ra). Nhìn chung, đồ thị dịch chuyển càng về phía trên bên trái thì đặc tính hiệu suất càng tốt.

Hình 4. Đường cong đánh đổi giữa time per output token (độ trễ) và output tokens per second (thông lượng), cho các độ dài chuỗi đầu vào/đầu ra khác nhau.
Hình 4. Đường cong đánh đổi giữa time per output token (độ trễ) và output tokens per second (thông lượng), cho các độ dài chuỗi đầu vào/đầu ra khác nhau.

Kết luận

Moreh vLLM tích hợp nhiều kỹ thuật khác nhau để tối ưu hóa suy luận cho mô hình Llama 3.3 70B, bao gồm các thư viện GPU độc quyền, tối ưu hóa ở cấp mô hình và các sửa đổi engine vLLM. Kết quả là, Moreh vLLM mang lại những cải thiện hiệu suất đáng kể so với vLLM mã nguồn mở gốc trên nhiều chỉ số suy luận khác nhau. Bằng cách áp dụng Moreh vLLM trên các máy chủ AMD MI300 series GPU, các dịch vụ LLM có thể giảm chi phí đồng thời cải thiện độ trễ. Moreh cũng cung cấp dịch vụ tối ưu hóa mô hình AI độc quyền của khách hàng trên AMD GPU và cung cấp vLLM tùy chỉnh cho mô hình đó.

Phụ lục: Dữ liệu thô

(Vui lòng tham khảo tệp PDF.)