Performance

Danh mục Benchmark

Benchmark minh bạch, có thể tái tạo trên các cấu hình đơn node, cluster và GPU đa dạng.

Single Node

Suy luận đơn node — Moreh vLLM

Hiệu năng suy luận trên mỗi server với Moreh vLLM.

InferenceMAX DeepSeek R1 0528

8× AMD MI300X

Throughput geomean

Moreh vLLM1.47×
SGLang1.0×
Blog Post

InferenceMAX DeepSeek R1 0528

8× AMD MI300X

E2E Latency geomean (càng thấp càng tốt)

Moreh vLLM0.68×
SGLang1.0×
Blog Post

DeepSeek R1 671B

8× AMD MI300X

Output TPS geomean

Moreh vLLM1.68×
ROCm vLLM1.0×
Technical Report

DeepSeek R1 671B

8× AMD MI300X

TTFT (càng thấp càng tốt)

Moreh vLLM0.57×
ROCm vLLM1.0×
Technical Report

Llama 3.3 70B

2× AMD MI300X

Output TPS geomean

Moreh vLLM1.74×
ROCm vLLM1.0×
Technical Report

Llama 3.3 70B

2× AMD MI300X

TTFT (càng thấp càng tốt)

Moreh vLLM0.50×
ROCm vLLM1.0×
Technical Report

Step3 321B

8× AMD MI308X

Decode TPS

Moreh vLLM4,082
NVIDIA H20 baseline3,147
Customer Case

Telco 7.8B LLM

1× AMD MI300X

Output TPS

Moreh vLLM (MI300X)186.75
vLLM (H100)143.39
Customer Case

Telco 7.8B LLM

1× AMD MI300X

SLO-compliant max concurrency

Moreh vLLM (MI300X)880
vLLM (H100)636
Customer Case
Cluster

Suy luận cluster — MoAI Inference Framework

PD disaggregation, định tuyến thông minh và các tối ưu khác ở quy mô cluster.

DeepSeek R1 671B

5× AMD MI300X nodes

Output tok/s per decode node

PD disagg + EP22,000+
Docs

DeepSeek R1 671B

5× AMD MI300X nodes

End-to-end latency (càng thấp càng tốt)

PD disaggregation0.74×
Non-disaggregated1.0×
Technical Report

DeepSeek R1 671B

2× vs 5× AMD MI300X nodes

Throughput

Cache-aware (2 nodes)2.2×
Naive routing (5 nodes)1.0×
Docs

DeepSeek R1 671B

2× vs 5× AMD MI300X nodes

TTFT (càng thấp càng tốt)

Cache-aware (2 nodes)0.03–0.05×
Naive routing (5 nodes)1.0×
Docs
Heterogeneous

Tích hợp GPU đa dạng

Thông lượng cao hơn và độ trễ thấp hơn nhờ điều phối GPU từ nhiều nhà cung cấp và thế hệ khác nhau.

GPT-OSS 120B

H100 + AMD MI300X

Throughput

Cross-vendor PD disagg1.7×
Same-vendor PD disagg1.0×
Technical Report

GPT-OSS 120B

H100 + AMD MI300X

End-to-end latency (càng thấp càng tốt)

Cross-vendor PD disagg0.57×
Same-vendor PD disagg1.0×
Technical Report

DeepSeek R1 671B

AMD MI300X + MI308X

Throughput

PD disaggregation1.53×
Load-balanced1.0×
Blog Post

GPT-OSS 120B

H100 + AMD MI250

Throughput

Speculative decoding1.17×
All-inference baseline1.0×
Technical Report

GPT-OSS 120B

4× AMD MI250 nodes

TTFT at 100K context (càng thấp càng tốt)

Multi-node prefill engine<2s
Single-node baseline~9s
Blog Post