Telco LLM Inference Optimization on AMD MI300X: 1.38× Higher Serving Capacity

Bối cảnh

Một trong những nhà mạng viễn thông lớn của Hàn Quốc đang lên kế hoạch triển khai dịch vụ ứng dụng LLM sử dụng mô hình LLM dense 7.8B tham số được phát triển bởi một công ty liên kết trong cùng tập đoàn. Trong quá trình đánh giá hạ tầng, họ muốn so sánh AMD Instinct MI300X với GPU NVIDIA H100 hiện có để phục vụ mô hình này trong môi trường production.

Khách hàng đã yêu cầu Moreh tối ưu hóa suy luận cho mô hình của công ty liên kết trên MI300X và thực hiện benchmark so sánh trực tiếp với H100. Mục tiêu không chỉ đơn thuần là đo tốc độ thô, mà còn trả lời một câu hỏi kinh doanh cụ thể: một GPU duy nhất có thể phục vụ bao nhiêu người dùng đồng thời trong khi vẫn duy trì chất lượng phản hồi chấp nhận được?

Đây là câu hỏi phổ biến đối với các nhà mạng viễn thông triển khai dịch vụ AI hướng tới khách hàng, nơi số lượng phiên đồng thời trực tiếp quyết định số GPU cần thiết — và do đó là tổng chi phí hạ tầng.

Tại sao các chỉ số này quan trọng

Trước khi đi vào kết quả, cần giải thích tại sao mỗi chỉ số được chọn. Khách hàng đang thiết kế dịch vụ LLM hướng tới thuê bao, vì vậy mỗi chỉ số tương ứng với một khía cạnh cụ thể của trải nghiệm người dùng và chi phí vận hành:

TTFT (Time To First Token): Thời gian người dùng phải chờ trước khi dịch vụ bắt đầu phản hồi. Trong giao diện hội thoại, TTFT cao tạo cảm giác chậm chạp và khiến người dùng rời đi. Đây là chỉ số "độ phản hồi cảm nhận được".
TPOT (Time Per Output Token): Khoảng thời gian giữa các token liên tiếp trong quá trình sinh văn bản, quyết định tốc độ streaming của phản hồi. TPOT thấp tạo ra văn bản giống như đang gõ tự nhiên, thời gian thực; giá trị cao gây ra hiện tượng giật hoặc lag đáng chú ý.
End-to-End Latency (E2EL): Tổng thời gian từ khi gửi yêu cầu đến token cuối cùng. Chỉ số này phản ánh toàn bộ thời gian chờ đợi của người dùng cho một phản hồi hoàn chỉnh.
Output TPS (Tokens Per Second): Thông lượng tổng hợp — hệ thống tạo ra bao nhiêu token mỗi giây. TPS cao hơn nghĩa là nhiều công việc được thực hiện hơn trên mỗi GPU trong mỗi đơn vị thời gian.
Max Concurrency: Số lượng yêu cầu đồng thời tối đa mà một GPU duy nhất có thể xử lý trong khi giữ TTFT và TPOT trong ngưỡng do khách hàng chỉ định (Service Level Objectives, hay SLO). Đây là chỉ số quan trọng nhất về mặt vận hành: nó trực tiếp quyết định số GPU khách hàng cần mua cho một lượng người dùng nhất định.

Cấu hình kiểm thử

Tất cả các bài kiểm thử so sánh một GPU với một GPU:

Phía MI300X: 1× AMD Instinct MI300X (192 GB HBM3e), chạy Moreh vLLM
Phía H100: 1× NVIDIA H100 SXM (80 GB HBM3), chạy vLLM

Khối lượng công việc sử dụng ShareGPT traces — nhật ký hội thoại thực từ dịch vụ giống ChatGPT — để mô phỏng tương tác hội thoại thực tế. Không giống như benchmark tổng hợp với độ dài đầu vào/đầu ra cố định, ShareGPT traces phản ánh các mẫu yêu cầu rất đa dạng của người dùng thực: câu hỏi theo dõi ngắn, prompt ban đầu dài, độ dài phản hồi khác nhau, v.v. Điều này giúp kết quả đại diện hơn cho những gì khách hàng sẽ thấy trong production.

Các kỹ thuật tối ưu hóa

Chạy mô hình do công ty liên kết phát triển trên nền tảng GPU mới không đơn giản là việc thay đổi phần cứng. Mô hình đã được phát triển và kiểm thử trên GPU NVIDIA, và vLLM mã nguồn mở mặc định trên ROCm stack của AMD vẫn còn nhiều hiệu năng chưa được khai thác. Moreh đã áp dụng hai kỹ thuật tối ưu hóa chính để thu hẹp khoảng cách này và khai phóng toàn bộ tiềm năng của MI300X:

Backend attention tùy chỉnh: Có nhiều triển khai kernel attention cho AMD ROCm, nhưng không có cái nào nhất quán vượt trội hơn các cái khác trong tất cả các tình huống cho kiến trúc mô hình này. Moreh đã profile từng ứng viên riêng biệt trong giai đoạn prefill và decode, sau đó kết hợp kernel hiệu suất tốt nhất cho mỗi giai đoạn thành một backend attention tùy chỉnh thống nhất. Riêng điều này đã cải thiện thông lượng đầu ra và độ trễ giữa các token lên 17% so với ROCm vLLM gốc.
GEMM tuning với shape-aware dispatch: Các phép nhân ma trận BF16 của mô hình được xử lý qua đường dẫn GEMM chung. Moreh đã xây dựng một lớp dispatch tùy chỉnh trên nhiều GEMM backend (bao gồm aiter.tgemm và các kernel skinny-GEMM chuyên biệt được tối ưu cho kích thước batch nhỏ điển hình trong decode), sau đó tinh chỉnh bảng dispatch theo shape cụ thể cho mọi GEMM shape xuất hiện trong mô hình. Điều này bổ sung thêm 10% cải thiện thông lượng đầu ra và 3% cho TTFT.

Kết hợp lại, các tối ưu hóa này giúp Moreh vLLM trên MI300X nhanh hơn tới 27% so với ROCm vLLM gốc trên cùng phần cứng MI300X — trước khi so sánh với H100. Các kết quả dưới đây phản ánh cấu hình đã được tối ưu hoàn toàn.

Độ trễ yêu cầu đơn

Bài kiểm thử đầu tiên đo hiệu năng cơ bản với một yêu cầu duy nhất (không có tải đồng thời). Điều này cho phép đánh giá tốc độ suy luận thô của mỗi nền tảng mà không bị ảnh hưởng bởi hiệu ứng batching:

Metric	Moreh vLLM (MI300X)	vLLM (H100)	Comparison
Output TPS (tok/s)	186.75	143.39	1.30× higher
TPOT (ms)	5.33	6.96	1.31× faster
End-to-End Latency (ms)	2,913	3,808	1.31× faster

Single request, ShareGPT workload, single GPU. TPOT = Time Per Output Token, E2EL = End-to-End Latency.

Với một yêu cầu duy nhất, Moreh vLLM trên MI300X đạt thông lượng đầu ra cao hơn 1.30× và độ trễ thấp hơn 1.31× trên tất cả các chỉ số. Trên thực tế, người dùng sẽ thấy phản hồi đầy đủ đến nhanh hơn khoảng 900 ms (2.9 giây so với 3.8 giây) — một cải thiện đáng chú ý trong giao diện hội thoại.

Ưu thế này đến từ băng thông bộ nhớ HBM3e cao hơn của MI300X (5.3 TB/s so với 3.35 TB/s của H100) kết hợp với các tối ưu hóa ở cấp kernel của Moreh vLLM được mô tả ở trên.

Dung lượng phục vụ tối đa tuân thủ SLO

Tốc độ thô của yêu cầu đơn là hữu ích, nhưng quyết định triển khai production được thúc đẩy bởi một câu hỏi khác: một GPU có thể phục vụ đồng thời bao nhiêu người dùng trong khi vẫn duy trì chất lượng dịch vụ chấp nhận được?

Để trả lời câu hỏi này, bài kiểm thử đã tăng dần số lượng yêu cầu đồng thời cho đến khi hệ thống không còn đáp ứng được các Service Level Objectives (SLO) do khách hàng chỉ định:

TTFT < 1,000 ms
TPOT < 100 ms

Các ngưỡng này được khách hàng xác định dựa trên yêu cầu dịch vụ của riêng họ. Mức đồng thời tối đa vẫn nằm trong cả hai SLO đại diện cho dung lượng phục vụ hiệu quả của một GPU duy nhất.

Metric	Moreh vLLM (MI300X)	vLLM (H100)	Comparison
Max Concurrency (SLO-compliant)	880	636	1.38×

Customer-specified SLO thresholds: TTFT < 1,000 ms, TPOT < 100 ms. ShareGPT workload on a single GPU.

Moreh vLLM trên MI300X đạt dung lượng phục vụ tuân thủ SLO cao hơn 1.38×: 880 yêu cầu đồng thời trên mỗi GPU so với 636 trên H100. Một MI300X duy nhất có thể phục vụ nhiều hơn 38% phiên đồng thời trong khi vẫn giữ cả TTFT và TPOT trong giới hạn do khách hàng chỉ định.

Đối với một nhà mạng viễn thông có kế hoạch phục vụ hàng triệu thuê bao, sự khác biệt này tích lũy ở quy mô lớn. Nếu dịch vụ cần xử lý 10,000 phiên đồng thời, sẽ cần khoảng 12 GPU MI300X so với 16 GPU H100 — giảm 25% số lượng GPU chỉ từ ưu thế về dung lượng phục vụ, chưa tính đến sự khác biệt về chi phí phần cứng.

Xác minh độ chính xác mô hình

Chuyển đổi nền tảng GPU và engine suy luận mang theo rủi ro về sự khác biệt số học tinh vi có thể ảnh hưởng đến chất lượng đầu ra của mô hình. Để xác minh rằng việc chuyển sang MI300X với Moreh vLLM không ảnh hưởng đến khả năng của mô hình, độ chính xác MMLU (Massive Multitask Language Understanding, 5-shot) đã được đo trên cả hai nền tảng:

Benchmark	Moreh vLLM (MI300X)	vLLM (H100)
MMLU (5-shot)	65.25	65.80

MMLU = Massive Multitask Language Understanding. The 0.55-point difference is within normal variance and does not indicate quality regression.

Sự khác biệt 0.55 điểm nằm trong phạm vi biến động bình thường của đánh giá MMLU và xác nhận rằng các tối ưu hóa của Moreh vLLM cho MI300X không gây ra suy giảm chất lượng đáng kể. Khách hàng có thể tự tin triển khai trên MI300X với đảm bảo rằng chất lượng phản hồi sẽ giống hệt baseline H100 của họ.

Phân tích TCO

Kết hợp kết quả hiệu năng với kinh tế phần cứng cho thấy bức tranh rõ ràng về tổng chi phí sở hữu (TCO):

Ưu thế dung lượng phục vụ: Mỗi MI300X phục vụ nhiều hơn 1.38× người dùng đồng thời so với H100, giảm số lượng GPU cần thiết cho một khối lượng công việc nhất định.
Ưu thế chi phí phần cứng: AMD Instinct MI300X có chi phí mua sắm thấp hơn NVIDIA H100 SXM.

Khi kết hợp cả hai yếu tố, phân tích nội bộ của chúng tôi dự kiến hiệu quả chi phí tốt hơn tới 70% cho khối lượng công việc suy luận này trên nền tảng MI300X + Moreh vLLM. Đối với một nhà mạng viễn thông triển khai dịch vụ AI ở quy mô quốc gia, điều này chuyển hóa thành khoản tiết kiệm chi phí vốn đáng kể.

Tổng kết

Dự án hợp tác với một trong những nhà mạng viễn thông lớn của Hàn Quốc này chứng minh rằng AMD Instinct MI300X, kết hợp với Moreh vLLM, là một lựa chọn thay thế hấp dẫn cho NVIDIA H100 trong LLM serving production. Đối với mô hình 7.8B tham số do công ty liên kết phát triển:

Thông lượng yêu cầu đơn cao hơn 1.30× với độ trễ end-to-end thấp hơn 1.31×
Dung lượng phục vụ tuân thủ SLO cao hơn 1.38× (880 so với 636 phiên đồng thời trên mỗi GPU)
Độ chính xác mô hình tương đương (MMLU 65.25 so với 65.80)
Hiệu quả chi phí tốt hơn tới 70% khi tính cả ưu thế hiệu năng và chi phí phần cứng

LLM do công ty liên kết phát triển đòi hỏi công việc tối ưu hóa tùy chỉnh của Moreh — bao gồm backend attention chuyên biệt cho mô hình và GEMM tuning theo shape — để chạy hiệu quả trên phần cứng AMD. Điều này chứng minh khả năng của Moreh trong việc tối ưu hóa mô hình cho AMD GPU, giúp khách hàng đa dạng hóa chuỗi cung ứng GPU và giảm phụ thuộc vào một nhà cung cấp duy nhất.

Moreh cung cấp dịch vụ tối ưu hóa vLLM tùy chỉnh cho các mô hình trên AMD GPU. Nếu bạn đang đánh giá AMD Instinct GPU cho khối lượng công việc suy luận của mình, hãy liên hệ với chúng tôi để thảo luận về cách chúng tôi có thể hỗ trợ.

Tối ưu hóa suy luận LLM cho nhà mạng: Dung lượng phục vụ trên AMD MI300X cao hơn 1,38 lần