Performance
벤치마크 카탈로그
단일 노드, 클러스터, 이기종 GPU 구성 전반에 걸친 투명하고 재현 가능한 벤치마크.
Single Node
단일 노드 추론 — Moreh vLLM
Moreh vLLM 기반 서버 단위 추론 성능.
InferenceMAX DeepSeek R1 0528
8× AMD MI300X
E2E Latency geomean (낮을수록 좋음)
Moreh vLLM
0.68×
SGLang
1.0×
Cluster
클러스터 추론 — MoAI Inference Framework
PD disaggregation, 지능형 라우팅 등 클러스터 규모 최적화.
DeepSeek R1 671B
5× AMD MI300X nodes
End-to-end latency (낮을수록 좋음)
PD disaggregation
0.74×
Non-disaggregated
1.0×
DeepSeek R1 671B
2× vs 5× AMD MI300X nodes
Throughput
Cache-aware (2 nodes)
2.2×
Naive routing (5 nodes)
1.0×
DeepSeek R1 671B
2× vs 5× AMD MI300X nodes
TTFT (낮을수록 좋음)
Cache-aware (2 nodes)
0.03–0.05×
Naive routing (5 nodes)
1.0×
Heterogeneous
이기종 GPU 통합
벤더와 세대를 넘나드는 GPU 오케스트레이션으로 더 높은 처리량과 낮은 지연 시간 달성.
GPT-OSS 120B
H100 + AMD MI300X
Throughput
Cross-vendor PD disagg
1.7×
Same-vendor PD disagg
1.0×
GPT-OSS 120B
H100 + AMD MI250
Throughput
Speculative decoding
1.17×
All-inference baseline
1.0×
GPT-OSS 120B
4× AMD MI250 nodes
TTFT at 100K context (낮을수록 좋음)
Multi-node prefill engine
<2s
Single-node baseline
~9s