Performance
ベンチマークカタログ
単一ノード、クラスター、ヘテロジニアスGPU構成全体にわたる透明性と再現性のあるベンチマーク。
Single Node
単一ノード推論 — Moreh vLLM
Moreh vLLMによるサーバー単位の推論性能。
InferenceMAX DeepSeek R1 0528
8× AMD MI300X
E2E Latency geomean (低いほど良い)
Moreh vLLM
0.68×
SGLang
1.0×
Cluster
クラスター推論 — MoAI Inference Framework
PD disaggregation、インテリジェントルーティングなど、クラスター規模の最適化。
DeepSeek R1 671B
5× AMD MI300X nodes
End-to-end latency (低いほど良い)
PD disaggregation
0.74×
Non-disaggregated
1.0×
DeepSeek R1 671B
2× vs 5× AMD MI300X nodes
Throughput
Cache-aware (2 nodes)
2.2×
Naive routing (5 nodes)
1.0×
DeepSeek R1 671B
2× vs 5× AMD MI300X nodes
TTFT (低いほど良い)
Cache-aware (2 nodes)
0.03–0.05×
Naive routing (5 nodes)
1.0×
Heterogeneous
ヘテロジニアスGPU統合
ベンダーと世代をまたぐGPUオーケストレーションにより、より高いスループットと低いレイテンシを実現。
GPT-OSS 120B
H100 + AMD MI300X
Throughput
Cross-vendor PD disagg
1.7×
Same-vendor PD disagg
1.0×
GPT-OSS 120B
H100 + AMD MI250
Throughput
Speculative decoding
1.17×
All-inference baseline
1.0×
GPT-OSS 120B
4× AMD MI250 nodes
TTFT at 100K context (低いほど良い)
Multi-node prefill engine
<2s
Single-node baseline
~9s