Moreh Unlocks AMD MI300X Potential: 1.5× Faster DeepSeek R1 Inference vs. SGLang (InferenceMax)

Giới thiệu

Với sự xuất hiện của các mô hình quy mô lớn như DeepSeek R1 và nhu cầu AI tăng vọt, ngay cả những khác biệt nhỏ trong hiệu suất suy luận cũng có thể chuyển thành khoảng cách chi phí hàng triệu đô la trên mỗi token ở quy mô lớn. Điều này khiến việc đo lường khách quan hiệu suất suy luận GPU ngày càng trở nên quan trọng, và framework benchmark mã nguồn mở InferenceMAX của SemiAnalysis là một ví dụ điển hình. Chạy các bài kiểm tra hàng đêm trên hàng trăm GPU để theo dõi hiệu suất suy luận theo thời gian thực, InferenceMAX đã trở thành một trong những hệ thống đo lường đáng tin cậy nhất trong ngành.

Vấn đề là nhiều người coi các con số InferenceMAX công khai là trần hiệu suất thực tế của phần cứng. Nhưng những con số này thể hiện kết quả mà phần mềm mã nguồn mở mặc định (SGLang) đạt được—chứ không phải giới hạn của phần cứng. Tùy thuộc vào mức độ tối ưu hóa phần mềm, bạn có thể khai thác hiệu suất cao hơn đáng kể từ cùng một phần cứng. Điều này đặc biệt đúng với AMD, nơi phần mềm suy luận vẫn chưa hoàn thiện so với hệ sinh thái CUDA của NVIDIA—nghĩa là còn nhiều dư địa tối ưu hóa và phần mềm đóng vai trò quan trọng hơn.

Chúng tôi đã chạy cùng benchmark InferenceMAX sử dụng engine suy luận tối ưu hóa của riêng mình và ghi nhận cải thiện 1,47 lần về độ trễ end-to-end và tăng 1,47 lần thông lượng trên mỗi GPU (trung bình hình học) so với các con số InferenceMAX đã công bố. Điều này xác nhận rằng tối ưu hóa phần mềm vẫn là chìa khóa để khai phá toàn bộ tiềm năng của GPU AMD—và Moreh có năng lực kỹ thuật để thực hiện điều đó. Đối với các tổ chức đang cân nhắc hạ tầng AMD, hợp tác với Moreh có thể giúp đạt hiệu suất suy luận cao hơn trên cùng phần cứng, từ đó giảm chi phí suy luận ở quy mô lớn. Trong bài viết này, chúng tôi sẽ trình bày kết quả kiểm tra để cho thấy tối ưu hóa phần mềm có thể tạo ra bao nhiêu khác biệt về hiệu suất trên cùng phần cứng.

Thách thức: Phần mềm mới là nút thắt thực sự của GPU AMD

Trên giấy tờ, AMD Instinct MI300X là một bộ tăng tốc suy luận ấn tượng. Nó trang bị 192 GB bộ nhớ HBM3 và băng thông bộ nhớ 5,3 TB/s—cao hơn khoảng 2,4 lần và 1,7 lần so với đối thủ NVIDIA H100 tương ứng.

Nhưng trên thực tế, hệ sinh thái phần mềm suy luận của AMD chưa hoàn thiện bằng stack dựa trên CUDA của NVIDIA. SemiAnalysis cũng xác định khả năng kết hợp (composability) là thách thức lớn nhất của AMD trong báo cáo của họ. Các kỹ thuật tối ưu hóa riêng lẻ—FP8 quantization, MoE kernel, Expert Parallelism—mỗi thứ hoạt động tốt riêng rẽ, nhưng việc tích hợp chúng vào một pipeline cấp production vẫn còn khó khăn.

Bản chất của DeepSeek R1 như một mô hình còn tạo thêm độ phức tạp. Đó là mô hình MoE với 671B tham số, có 256 expert trên mỗi decoder block, kết hợp Multi-Head Latent Attention (MLA) và đầu ra chain-of-thought dài—tạo ra bề mặt tối ưu hóa rộng lớn. Điều này cũng có nghĩa là có dư địa hiệu suất đáng kể mà các cấu hình phần mềm mã nguồn mở mặc định đơn giản không thể khai thác được.

Để giải quyết các nút thắt này, Moreh đã phát triển engine suy luận riêng với các tối ưu hóa sâu đến cấp GPU kernel. Chúng tôi đã giải quyết các lĩnh vực mà phần mềm mã nguồn mở mặc định bỏ qua—hiệu quả MoE kernel, tận dụng FP8 KV cache, chi phí kernel launch, và nhiều hơn nữa—để đẩy hiệu suất đi xa hơn. Dưới đây, chúng tôi phân tích cách engine suy luận tối ưu hóa của Moreh vượt trội so với kết quả benchmark InferenceMAX được đo với phần mềm mã nguồn mở hiện có.

Môi trường kiểm tra

Category	Specification
GPU	AMD Instinct MI300X (8 GPUs per node)
Model	DeepSeek R1 0528
Precision	FP8
Benchmark	InferenceMAX benchmark suite
Baseline	Public SGLang results (January 26, 2026)
Inference Framework	Moreh Optimized Inference Engine (Moreh-vLLM)

Cấu hình Benchmark

Chúng tôi đã tái tạo chính xác cấu hình benchmark InferenceMAX, bao gồm ba kịch bản ISL/OSL (Input Sequence Length / Output Sequence Length) đại diện:

1K/1K — Tải cân bằng (Q&A ngữ cảnh ngắn, chat)
1K/8K — Tải đầu ra dài (suy luận, lập trình, chain-of-thought)
8K/1K — Tải đầu vào dài (xử lý tài liệu, tóm tắt, RAG)

Mỗi kịch bản được kiểm tra ở các mức đồng thời 4, 8, 16, 32 và 64 (tổng số request từ 40 đến 640), với tốc độ request vô hạn để đo thông lượng tối đa.

Đánh giá hiệu suất

Tóm tắt kết quả

Trong tất cả 15 cấu hình benchmark, Moreh-vLLM—engine suy luận được xây dựng với các kỹ thuật tối ưu hóa của Moreh—đã liên tục vượt trội so với các con số InferenceMAX đã công bố trên cùng phần cứng AMD MI300X.

Metric	Geometric Mean Improvement
Median End-to-End Latency (E2EL)	1.47x
Total Throughput per GPU (tok/s/gpu)	1.47x

Figure 1. Performance speedup for various request patterns (end-to-end latency). — Hình 1. Tăng tốc hiệu suất cho các mẫu request khác nhau. Cao hơn là tốt hơn. Moreh-vLLM cho thấy độ trễ end-to-end thấp hơn trung bình 1,47 lần.

Figure 2. Performance speedup for various request patterns (throughput). — Hình 2. Tăng tốc hiệu suất cho các mẫu request khác nhau. Cao hơn là tốt hơn. Moreh-vLLM cho thấy thông lượng cao hơn trung bình 1,47 lần.

Phân tích chi tiết theo kịch bản

1K/1K (ISL=1,024, OSL=1,024)

CON	Median E2E Latency (s)			Total Throughput per GPU (tok/s/gpu)
CON	SGLang	Moreh-vLLM	Improvement	SGLang	Moreh-vLLM	Improvement
4	24.68	15.43	1.60x	35.91	58.29	1.62x
8	27.06	17.64	1.53x	66.15	103.44	1.56x
16	29.6	22.18	1.33x	120.13	163.57	1.36x
32	37.57	29.25	1.28x	190.84	247.98	1.30x
64	48.55	39.15	1.24x	294.07	371.63	1.26x

Cải thiện hiệu suất rõ rệt nhất ở mức đồng thời thấp (CON=4), với độ trễ cải thiện 1,60 lần và thông lượng tăng 1,62 lần. Đây là kết quả của việc tối ưu hóa Moreh loại bỏ hiệu quả chi phí kernel launch, vốn chiếm ưu thế ở kích thước batch nhỏ.

Mặc dù mức cải thiện giảm dần khi đồng thời tăng, nhưng mức cải thiện có ý nghĩa trên 1,24 lần vẫn được duy trì ngay cả ở CON=64.

Figure 3. Throughput-Latency trade-off comparison (ISL=1,024, OSL=1,024). — Hình 3. So sánh đánh đổi thông lượng-độ trễ (ISL=1,024, OSL=1,024). Moreh thể hiện hiệu quả vượt trội so với SGLang bằng cách duy trì thông lượng cao hơn ở độ trễ end-to-end thấp hơn đáng kể.

1K/8K (ISL=1,024, OSL=8,192)

CON	Median E2E Latency (s)			Total Throughput per GPU (tok/s/gpu)
CON	SGLang	Moreh-vLLM	Improvement	SGLang	Moreh-vLLM	Improvement
4	203.9	117.62	1.73x	19.4	33.69	1.74x
8	210.22	134.7	1.56x	38.48	60.11	1.56x
16	239.432	173.8	1.38x	67.84	93.49	1.38x
32	347.05	221.34	1.57x	93.95	147.16	1.57x
64	395.78	291.09	1.36x	162.89	221.7	1.36x

Kịch bản 1K/8K liên quan đến việc tạo đầu ra dài và được thiết kế để kiểm tra áp lực hiệu suất decode. Đây là nơi các tối ưu hóa của Moreh trong việc tối đa hóa sử dụng băng thông bộ nhớ nổi bật nhất. Cụ thể, cải thiện độ trễ 1,73 lần và tăng thông lượng 1,74 lần ở CON=4 cho thấy rõ ràng tác động của các tối ưu hóa của chúng tôi đối với tải tạo dài.

Khi đồng thời tăng, tải dần chuyển sang compute-bound, thu hẹp khoảng cách tối ưu hóa phần mềm. Tuy nhiên, ngay cả ở CON=64, chúng tôi vẫn ghi nhận mức cải thiện hiệu suất có ý nghĩa 1,36 lần ở cả độ trễ end-to-end và thông lượng.

Figure 4. Throughput-Latency trade-off comparison (ISL=1,024, OSL=8,192). — Hình 4. So sánh đánh đổi thông lượng-độ trễ (ISL=1,024, OSL=8,192). Moreh thể hiện hiệu quả vượt trội so với SGLang bằng cách duy trì thông lượng cao hơn ở độ trễ end-to-end thấp hơn đáng kể.

8K/1K (ISL=8,192, OSL=1,024)

CON	Median E2E Latency (s)			Total Throughput per GPU (tok/s/gpu)
CON	SGLang	Moreh-vLLM	Improvement	SGLang	Moreh-vLLM	Improvement
4	30.84	16.82	1.83x	129.74	236.7	1.82x
8	32.72	20.49	1.60x	243.75	396.34	1.63x
16	38.77	28.24	1.37x	402.33	567.92	1.41x
32	60.31	41.33	1.46x	522.94	781.02	1.49x
64	88.06	64.75	1.36x	722.49	840.53	1.16x

Kịch bản 8K/1K là tải chủ yếu prefill. Mức cải thiện độ trễ đỉnh 1,83 lần ở CON=4 là nhờ các tối ưu hóa kernel của Moreh cho giai đoạn prefill. Đáng chú ý, ngay cả ở mức đồng thời tối đa (CON=64), chúng tôi vẫn đạt được cải thiện độ trễ 1,36 lần và tăng thông lượng 1,16 lần—chứng minh lợi thế hiệu suất có ý nghĩa ngay cả dưới tải nặng.

Figure 5. Throughput-Latency trade-off comparison (ISL=8,192, OSL=1,024). — Hình 5. So sánh đánh đổi thông lượng-độ trễ (ISL=8,192, OSL=1,024). Moreh thể hiện hiệu quả vượt trội so với SGLang bằng cách duy trì thông lượng cao hơn ở độ trễ end-to-end thấp hơn đáng kể.

Phát hiện chính

Cải thiện hiệu suất nhất quán ở tất cả các mức đồng thời. Cùng một mẫu xuất hiện trong cả ba kịch bản. Ở kích thước batch nhỏ, chi phí kernel launch và sự thiếu hiệu quả trên mỗi thao tác chiếm ưu thế trong hiệu suất tổng thể—và đây là nơi các tối ưu hóa của Moreh mang lại tác động lớn nhất. Ngay cả khi đồng thời tăng, mức cải thiện hiệu suất ổn định ít nhất 1,16 lần được duy trì trên tất cả cấu hình, cho thấy lợi ích tối ưu hóa không giới hạn ở các điều kiện cụ thể mà áp dụng nhất quán trên toàn diện.
Tối ưu hóa của Moreh cũng có giá trị cho tải đầu ra dài. Với sự phát triển của các mô hình suy luận, tải đầu ra dài như chain-of-thought đang tăng trưởng nhanh chóng. Trong kịch bản 1K/8K, chúng tôi quan sát thấy cải thiện hiệu suất từ 1,36 lần đến 1,74 lần—kết quả của việc tối ưu hóa sử dụng băng thông bền vững trong các chuỗi decode dài.
Cải thiện thông lượng và độ trễ mở rộng gần như cùng tốc độ. Trung bình hình học gần như đối xứng ở mức 1,47 lần so với 1,47 lần. Điều này cho thấy các tối ưu hóa của chúng tôi không chỉ đơn giản dịch chuyển đánh đổi độ trễ-thông lượng—mà cải thiện hiệu quả tính toán thực tế.
Phần cứng giống hệt nhau. Chỉ phần mềm thay đổi. Tất cả kết quả đều đạt được trên cùng GPU AMD MI300X. Sự khác biệt về hiệu suất đến từ các tối ưu hóa riêng của chúng tôi đi sâu hơn phần mềm mã nguồn mở mặc định—giảm chi phí kernel launch ở kích thước batch nhỏ, tối đa hóa sử dụng băng thông bộ nhớ GPU, tối ưu hóa thao tác prefill, v.v.

Kết luận

Tối ưu hóa phần mềm trên GPU AMD không phải là chương đã khép lại với phần mềm mã nguồn mở. Và các con số được công bố trên InferenceMAX không đại diện cho giới hạn hiệu suất của phần cứng. Trong đánh giá này, chúng tôi đã chứng minh rằng với tối ưu hóa phần mềm sâu hơn, AMD MI300X có thể đạt được cải thiện 1,47 lần về độ trễ end-to-end và cải thiện 1,47 lần về thông lượng trên mỗi GPU cho suy luận DeepSeek R1 FP8—so với baseline InferenceMAX hiện đang được công bố.

Mỗi phần trăm hiệu quả suy luận chuyển trực tiếp thành tiết kiệm chi phí trên mỗi token cho các CSP và doanh nghiệp phục vụ mô hình open-weight ở quy mô lớn. Moreh có thể là đối tác phần mềm đã được chứng minh cho các tổ chức muốn áp dụng hạ tầng AMD, giúp họ khai thác hiệu suất tối đa từ cùng phần cứng. Chúng tôi sẽ tiếp tục đẩy xa giới hạn hiệu suất suy luận trên GPU AMD, cho phép nhiều tổ chức hơn hiện thực hóa đầy đủ giá trị của hạ tầng AMD.

Để biết thêm chi tiết về tối ưu hóa suy luận của Moreh, hãy truy cập moreh.io và docs.moreh.io.

Moreh khai phá tiềm năng AMD MI300X: Suy luận DeepSeek R1 nhanh hơn 1,5 lần so với SGLang (InferenceMAX)