Performance
Danh mục Benchmark
Benchmark minh bạch, có thể tái tạo trên các cấu hình đơn node, cluster và GPU đa dạng.
Single Node
Suy luận đơn node — Moreh vLLM
Hiệu năng suy luận trên mỗi server với Moreh vLLM.
DeepSeek R1 671B
8× AMD MI300X
TTFT (càng thấp càng tốt)
InferenceMAX DeepSeek R1 0528
8× AMD MI300X
E2E Latency geomean (càng thấp càng tốt)
Cluster
Suy luận cluster — MoAI Inference Framework
PD disaggregation, định tuyến thông minh và các tối ưu khác ở quy mô cluster.
DeepSeek R1 671B
5× AMD MI300X nodes
End-to-end latency (càng thấp càng tốt)
DeepSeek R1 671B
2× vs 5× AMD MI300X nodes
Throughput
DeepSeek R1 671B
2× vs 5× AMD MI300X nodes
TTFT (càng thấp càng tốt)
Heterogeneous
Tích hợp GPU đa dạng
Thông lượng cao hơn và độ trễ thấp hơn nhờ điều phối GPU từ nhiều nhà cung cấp và thế hệ khác nhau.
GPT-OSS 120B
H100 + AMD MI300X
Throughput
GPT-OSS 120B
H100 + AMD MI250
Throughput
GPT-OSS 120B
4× AMD MI250 nodes
TTFT at 100K context (càng thấp càng tốt)