Performance

Danh mục Benchmark

Benchmark minh bạch, có thể tái tạo trên các cấu hình đơn node, cluster và GPU đa dạng.

Single Node

Suy luận đơn node — Moreh vLLM

Hiệu năng suy luận trên mỗi server với Moreh vLLM.

InferenceMAX DeepSeek R1 0528

8× AMD MI300X

Throughput geomean

Moreh vLLM1.47×

SGLang1.0×

Blog Post →

InferenceMAX DeepSeek R1 0528

8× AMD MI300X

E2E Latency geomean (càng thấp càng tốt)

Moreh vLLM0.68×

SGLang1.0×

Blog Post →

DeepSeek R1 671B

8× AMD MI300X

Output TPS geomean

Moreh vLLM1.68×

ROCm vLLM1.0×

Technical Report →

DeepSeek R1 671B

8× AMD MI300X

TTFT (càng thấp càng tốt)

Moreh vLLM0.57×

ROCm vLLM1.0×

Technical Report →

Llama 3.3 70B

2× AMD MI300X

Output TPS geomean

Moreh vLLM1.74×

ROCm vLLM1.0×

Technical Report →

Llama 3.3 70B

2× AMD MI300X

TTFT (càng thấp càng tốt)

Moreh vLLM0.50×

ROCm vLLM1.0×

Technical Report →

Step3 321B

8× AMD MI308X

Decode TPS

Moreh vLLM4,082

NVIDIA H20 baseline3,147

Customer Case →

Telco 7.8B LLM

1× AMD MI300X

Output TPS

Moreh vLLM (MI300X)186.75

vLLM (H100)143.39

Customer Case →

Telco 7.8B LLM

1× AMD MI300X

SLO-compliant max concurrency

Moreh vLLM (MI300X)880

vLLM (H100)636

Customer Case →

Cluster

Suy luận cluster — MoAI Inference Framework

PD disaggregation, định tuyến thông minh và các tối ưu khác ở quy mô cluster.

DeepSeek R1 671B

5× AMD MI300X nodes

Output tok/s per decode node

PD disagg + EP22,000+

Docs →

DeepSeek R1 671B

5× AMD MI300X nodes

End-to-end latency (càng thấp càng tốt)

PD disaggregation0.74×

Non-disaggregated1.0×

Technical Report →

DeepSeek R1 671B

2× vs 5× AMD MI300X nodes

Throughput

Cache-aware (2 nodes)2.2×

Naive routing (5 nodes)1.0×

Docs →

DeepSeek R1 671B

2× vs 5× AMD MI300X nodes

TTFT (càng thấp càng tốt)

Cache-aware (2 nodes)0.03–0.05×

Naive routing (5 nodes)1.0×

Docs →

Heterogeneous

Tích hợp GPU đa dạng

Thông lượng cao hơn và độ trễ thấp hơn nhờ điều phối GPU từ nhiều nhà cung cấp và thế hệ khác nhau.

GPT-OSS 120B

H100 + AMD MI300X

Throughput

Cross-vendor PD disagg1.7×

Same-vendor PD disagg1.0×

Technical Report →

GPT-OSS 120B

H100 + AMD MI300X

End-to-end latency (càng thấp càng tốt)

Cross-vendor PD disagg0.57×

Same-vendor PD disagg1.0×

Technical Report →

DeepSeek R1 671B

AMD MI300X + MI308X

Throughput

PD disaggregation1.53×

Load-balanced1.0×

Blog Post →

GPT-OSS 120B

H100 + AMD MI250

Throughput

Speculative decoding1.17×

All-inference baseline1.0×

Technical Report →

GPT-OSS 120B

4× AMD MI250 nodes

TTFT at 100K context (càng thấp càng tốt)

Multi-node prefill engine<2s

Single-node baseline~9s

Blog Post →