Performance

Danh mục Benchmark

Benchmark minh bạch, có thể tái tạo trên các cấu hình đơn node, cluster và GPU đa dạng.

Single Node

Suy luận đơn node — Moreh vLLM

Hiệu năng suy luận trên mỗi server với Moreh vLLM.

DeepSeek R1 671B

8× AMD MI300X

Output TPS geomean

Moreh vLLM
1.68×
ROCm vLLM
1.0×
Technical Report

DeepSeek R1 671B

8× AMD MI300X

TTFT (càng thấp càng tốt)

Moreh vLLM
0.57×
ROCm vLLM
1.0×
Technical Report

Llama 3.3 70B

2× AMD MI300X

Output TPS geomean

Moreh vLLM
1.74×
ROCm vLLM
1.0×
Technical Report

Llama 3.3 70B

2× AMD MI300X

TTFT (càng thấp càng tốt)

Moreh vLLM
0.50×
ROCm vLLM
1.0×
Technical Report

Step3 321B

8× AMD MI308X

Decode TPS

Moreh vLLM
4,082
NVIDIA H20 baseline
3,147
Customer Case

InferenceMAX DeepSeek R1 0528

8× AMD MI300X

Throughput geomean

Moreh vLLM
1.47×
SGLang
1.0×
Blog Post

InferenceMAX DeepSeek R1 0528

8× AMD MI300X

E2E Latency geomean (càng thấp càng tốt)

Moreh vLLM
0.68×
SGLang
1.0×
Blog Post

Cluster

Suy luận cluster — MoAI Inference Framework

PD disaggregation, định tuyến thông minh và các tối ưu khác ở quy mô cluster.

DeepSeek R1 671B

5× AMD MI300X nodes

Output tok/s per decode node

PD disagg + EP
22,000+
Docs

DeepSeek R1 671B

5× AMD MI300X nodes

End-to-end latency (càng thấp càng tốt)

PD disaggregation
0.74×
Non-disaggregated
1.0×
Coming Soon

DeepSeek R1 671B

2× vs 5× AMD MI300X nodes

Throughput

Cache-aware (2 nodes)
2.2×
Naive routing (5 nodes)
1.0×
Docs

DeepSeek R1 671B

2× vs 5× AMD MI300X nodes

TTFT (càng thấp càng tốt)

Cache-aware (2 nodes)
0.03–0.05×
Naive routing (5 nodes)
1.0×
Docs

Heterogeneous

Tích hợp GPU đa dạng

Thông lượng cao hơn và độ trễ thấp hơn nhờ điều phối GPU từ nhiều nhà cung cấp và thế hệ khác nhau.

GPT-OSS 120B

H100 + AMD MI300X

Throughput

Cross-vendor PD disagg
1.7×
Same-vendor PD disagg
1.0×
Coming Soon

DeepSeek R1 671B

AMD MI300X + MI308X

Throughput

PD disaggregation
1.53×
Load-balanced
1.0×
Blog Post

GPT-OSS 120B

H100 + AMD MI250

Throughput

Speculative decoding
1.17×
All-inference baseline
1.0×
Technical Report

GPT-OSS 120B

4× AMD MI250 nodes

TTFT at 100K context (càng thấp càng tốt)

Multi-node prefill engine
<2s
Single-node baseline
~9s
Blog Post