Performance
벤치마크 카탈로그
단일 노드, 클러스터, 이기종 GPU 구성 전반에 걸친 투명하고 재현 가능한 벤치마크.
단일 노드 추론 — Moreh vLLM
Moreh vLLM 기반 서버 단위 추론 성능.
InferenceMAX DeepSeek R1 0528
8× AMD MI300X
E2E Latency geomean (낮을수록 좋음)
Moreh vLLM0.68×
SGLang1.0×
Telco 7.8B LLM
1× AMD MI300X
SLO-compliant max concurrency
Moreh vLLM (MI300X)880
vLLM (H100)636
클러스터 추론 — MoAI Inference Framework
PD disaggregation, 지능형 라우팅 등 클러스터 규모 최적화.
DeepSeek R1 671B
5× AMD MI300X nodes
End-to-end latency (낮을수록 좋음)
PD disaggregation0.74×
Non-disaggregated1.0×
DeepSeek R1 671B
2× vs 5× AMD MI300X nodes
Throughput
Cache-aware (2 nodes)2.2×
Naive routing (5 nodes)1.0×
DeepSeek R1 671B
2× vs 5× AMD MI300X nodes
TTFT (낮을수록 좋음)
Cache-aware (2 nodes)0.03–0.05×
Naive routing (5 nodes)1.0×
이기종 GPU 통합
벤더와 세대를 넘나드는 GPU 오케스트레이션으로 더 높은 처리량과 낮은 지연 시간 달성.
GPT-OSS 120B
H100 + AMD MI300X
Throughput
Cross-vendor PD disagg1.7×
Same-vendor PD disagg1.0×
GPT-OSS 120B
H100 + AMD MI300X
End-to-end latency (낮을수록 좋음)
Cross-vendor PD disagg0.57×
Same-vendor PD disagg1.0×
GPT-OSS 120B
H100 + AMD MI250
Throughput
Speculative decoding1.17×
All-inference baseline1.0×
GPT-OSS 120B
4× AMD MI250 nodes
TTFT at 100K context (낮을수록 좋음)
Multi-node prefill engine<2s
Single-node baseline~9s