Moreh Unlocks AMD MI300X Potential: 1.5× Faster DeepSeek R1 Inference vs. SGLang (InferenceMax)

서론

DeepSeek R1과 같은 대규모 모델의 등장과 AI 수요의 급증으로 인해, 추론 성능의 작은 차이조차도 대규모 서비스 환경에서는 토큰당 비용에서 수백만 달러의 격차로 이어질 수 있습니다. 이에 따라 GPU 추론 성능의 객관적인 측정이 더욱 중요해졌으며, SemiAnalysis의 오픈소스 벤치마크 프레임워크인 InferenceMAX가 대표적인 사례입니다. 수백 개의 GPU에 대해 매일 밤 테스트를 실행하여 추론 성능을 실시간으로 추적하는 InferenceMAX는 업계에서 가장 신뢰받는 측정 시스템 중 하나로 자리잡았습니다.

문제는 많은 사람들이 공개된 InferenceMAX 수치를 해당 하드웨어의 실제 성능 한계로 받아들인다는 점입니다. 하지만 이 수치는 기본 오픈소스 소프트웨어(SGLang)가 달성한 결과일 뿐—하드웨어 자체의 한계를 의미하지는 않습니다. 소프트웨어를 얼마나 깊이 최적화하느냐에 따라 동일한 하드웨어에서 훨씬 더 높은 성능을 이끌어낼 수 있습니다. 이는 특히 NVIDIA의 CUDA 생태계에 비해 추론 소프트웨어의 성숙도가 낮은 AMD에서 더욱 두드러지며—그만큼 최적화 여지가 크고 소프트웨어의 역할이 더욱 중요합니다.

저희는 자체 최적화 추론 엔진을 사용하여 동일한 InferenceMAX 벤치마크를 실행했으며, 공개된 InferenceMAX 수치 대비 종단간 지연 시간 1.47배 개선 및 GPU당 처리량 1.47배 향상(기하 평균) 을 확인했습니다. 이는 AMD GPU의 잠재력을 최대한 끌어내는 데 소프트웨어 최적화가 핵심이며, Moreh가 이를 실현할 수 있는 기술력을 보유하고 있음을 확인시켜 줍니다. AMD 인프라를 고려하는 조직에게 이는 Moreh와의 협력을 통해 동일한 하드웨어에서 더 높은 추론 성능을 달성하고, 궁극적으로 대규모 추론 비용을 절감할 수 있음을 시사합니다. 이 글에서는 소프트웨어 최적화가 동일한 하드웨어에서 얼마나 큰 성능 차이를 만들어낼 수 있는지를 테스트 결과를 통해 보여드리겠습니다.

과제: 소프트웨어가 AMD GPU의 진짜 병목

스펙상으로 AMD Instinct MI300X는 인상적인 추론 가속기입니다. 192 GB HBM3 메모리와 5.3 TB/s의 메모리 대역폭을 갖추고 있으며—이는 경쟁 제품인 NVIDIA H100 대비 각각 약 2.4배, 1.7배 높은 수치입니다.

그러나 실제로 AMD의 추론 소프트웨어 생태계는 NVIDIA의 CUDA 기반 스택에 비해 성숙도가 낮습니다. SemiAnalysis 역시 자체 보고서에서 조합성(composability)을 AMD의 가장 큰 과제로 꼽았습니다. FP8 양자화, MoE 커널, Expert Parallelism 등 개별 최적화 기법은 각각 잘 동작하지만, 이를 하나의 프로덕션급 파이프라인으로 통합하는 것은 여전히 어려운 과제입니다.

DeepSeek R1이라는 모델의 특성은 복잡성을 더합니다. 디코더 블록당 256개의 전문가를 가진 671B 파라미터 MoE 모델이며, Multi-Head Latent Attention(MLA)과 긴 chain-of-thought 출력이 결합되어—최적화 범위가 매우 넓습니다. 이는 곧 기본 오픈소스 소프트웨어 구성으로는 활용할 수 없는 상당한 성능 여력이 존재한다는 것을 의미합니다.

이러한 병목을 해결하기 위해, Moreh는 GPU 커널 수준까지 최적화된 자체 추론 엔진을 개발했습니다. 기본 오픈소스 소프트웨어가 놓치는 영역—MoE 커널 효율성, FP8 KV 캐시 활용, 커널 실행 오버헤드 등—을 집중적으로 개선하여 성능을 한 단계 끌어올렸습니다. 아래에서는 Moreh의 최적화 추론 엔진이 기존 오픈소스 소프트웨어로 측정된 InferenceMAX 벤치마크 결과를 어떻게 능가했는지 살펴봅니다.

테스트 환경

Category	Specification
GPU	AMD Instinct MI300X (8 GPUs per node)
Model	DeepSeek R1 0528
Precision	FP8
Benchmark	InferenceMAX benchmark suite
Baseline	Public SGLang results (January 26, 2026)
Inference Framework	Moreh Optimized Inference Engine (Moreh-vLLM)

벤치마크 구성

저희는 InferenceMAX 벤치마크 구성을 정확히 재현했으며, 세 가지 대표적인 ISL/OSL(Input Sequence Length / Output Sequence Length) 시나리오를 다루었습니다:

1K/1K — 균형 잡힌 워크로드(짧은 맥락의 Q&A, 채팅)
1K/8K — 긴 출력 워크로드(추론, 코딩, chain-of-thought)
8K/1K — 긴 입력 워크로드(문서 처리, 요약, RAG)

각 시나리오는 동시 요청 수 4, 8, 16, 32, 64(총 요청 수 40~640)에서 테스트되었으며, 최대 처리량을 측정하기 위해 무한 요청 속도를 적용했습니다.

성능 평가

결과 요약

15개 벤치마크 구성 전체에서, Moreh의 최적화 기술로 구축된 추론 엔진인 Moreh-vLLM은 동일한 AMD MI300X 하드웨어에서 공개된 InferenceMAX 수치를 일관되게 상회했습니다.

Metric	Geometric Mean Improvement
Median End-to-End Latency (E2EL)	1.47x
Total Throughput per GPU (tok/s/gpu)	1.47x

Figure 1. Performance speedup for various request patterns (end-to-end latency). — Figure 1. 다양한 요청 패턴에 대한 성능 향상 비교. 높을수록 좋습니다. Moreh-vLLM은 평균 1.47배 낮은 종단간 지연 시간을 보여줍니다.

Figure 2. Performance speedup for various request patterns (throughput). — Figure 2. 다양한 요청 패턴에 대한 성능 향상 비교. 높을수록 좋습니다. Moreh-vLLM은 평균 1.47배 높은 처리량을 보여줍니다.

시나리오별 상세 분석

1K/1K (ISL=1,024, OSL=1,024)

CON	Median E2E Latency (s)			Total Throughput per GPU (tok/s/gpu)
CON	SGLang	Moreh-vLLM	Improvement	SGLang	Moreh-vLLM	Improvement
4	24.68	15.43	1.60x	35.91	58.29	1.62x
8	27.06	17.64	1.53x	66.15	103.44	1.56x
16	29.6	22.18	1.33x	120.13	163.57	1.36x
32	37.57	29.25	1.28x	190.84	247.98	1.30x
64	48.55	39.15	1.24x	294.07	371.63	1.26x

성능 개선은 낮은 동시 요청 수(CON=4)에서 가장 두드러지며, 지연 시간 1.60배 개선과 처리량 1.62배 향상을 달성했습니다. 이는 Moreh의 최적화가 작은 배치 크기에서 지배적인 커널 실행 오버헤드를 효과적으로 제거한 결과입니다.

동시 요청 수가 증가함에 따라 성능 향상 폭은 줄어들지만, CON=64에서도 1.24배 이상의 유의미한 개선이 유지됩니다.

Figure 3. Throughput-Latency trade-off comparison (ISL=1,024, OSL=1,024). — Figure 3. 처리량-지연 시간 트레이드오프 비교 (ISL=1,024, OSL=1,024). Moreh는 현저히 낮은 종단간 지연 시간에서 더 높은 처리량을 유지하며 SGLang 대비 우수한 효율성을 보여줍니다.

1K/8K (ISL=1,024, OSL=8,192)

CON	Median E2E Latency (s)			Total Throughput per GPU (tok/s/gpu)
CON	SGLang	Moreh-vLLM	Improvement	SGLang	Moreh-vLLM	Improvement
4	203.9	117.62	1.73x	19.4	33.69	1.74x
8	210.22	134.7	1.56x	38.48	60.11	1.56x
16	239.432	173.8	1.38x	67.84	93.49	1.38x
32	347.05	221.34	1.57x	93.95	147.16	1.57x
64	395.78	291.09	1.36x	162.89	221.7	1.36x

1K/8K 시나리오는 긴 출력을 생성하는 것으로, 디코드 성능을 스트레스 테스트하기 위해 설계되었습니다. 여기서 메모리 대역폭 활용을 극대화하는 Moreh의 최적화가 가장 두드러졌습니다. 특히 CON=4에서의 1.73배 지연 시간 개선과 1.74배 처리량 향상은 긴 생성 워크로드에 대한 최적화의 효과를 명확히 보여줍니다.

동시 요청 수가 증가하면 워크로드가 점차 연산 바운드로 전환되어 소프트웨어 최적화 격차가 줄어듭니다. 그러나 CON=64에서도 종단간 지연 시간과 처리량 모두에서 1.36배의 유의미한 성능 향상을 기록했습니다.

Figure 4. Throughput-Latency trade-off comparison (ISL=1,024, OSL=8,192). — Figure 4. 처리량-지연 시간 트레이드오프 비교 (ISL=1,024, OSL=8,192). Moreh는 현저히 낮은 종단간 지연 시간에서 더 높은 처리량을 유지하며 SGLang 대비 우수한 효율성을 보여줍니다.

8K/1K (ISL=8,192, OSL=1,024)

CON	Median E2E Latency (s)			Total Throughput per GPU (tok/s/gpu)
CON	SGLang	Moreh-vLLM	Improvement	SGLang	Moreh-vLLM	Improvement
4	30.84	16.82	1.83x	129.74	236.7	1.82x
8	32.72	20.49	1.60x	243.75	396.34	1.63x
16	38.77	28.24	1.37x	402.33	567.92	1.41x
32	60.31	41.33	1.46x	522.94	781.02	1.49x
64	88.06	64.75	1.36x	722.49	840.53	1.16x

8K/1K 시나리오는 프리필(prefill) 중심의 워크로드입니다. CON=4에서의 최대 1.83배 지연 시간 개선은 프리필 단계에 대한 Moreh의 커널 최적화에 기인합니다. 특히 최대 동시 요청 수(CON=64)에서도 1.36배의 지연 시간 개선과 1.16배의 처리량 향상을 달성하여—높은 부하 상황에서도 유의미한 성능 우위를 입증했습니다.

Figure 5. Throughput-Latency trade-off comparison (ISL=8,192, OSL=1,024). — Figure 5. 처리량-지연 시간 트레이드오프 비교 (ISL=8,192, OSL=1,024). Moreh는 현저히 낮은 종단간 지연 시간에서 더 높은 처리량을 유지하며 SGLang 대비 우수한 효율성을 보여줍니다.

핵심 관찰 사항

모든 동시 요청 수준에서 일관된 성능 개선. 세 가지 시나리오 모두에서 동일한 패턴이 나타납니다. 작은 배치 크기에서는 커널 실행 오버헤드와 연산별 비효율성이 전체 성능을 지배하며—이 지점에서 Moreh의 최적화가 가장 큰 효과를 발휘합니다. 동시 요청 수가 증가하더라도 모든 구성에서 최소 1.16배 이상의 안정적인 성능 향상이 유지되어, 최적화 효과가 특정 조건에 국한되지 않고 전반적으로 일관되게 적용됨을 보여줍니다.
Moreh의 최적화는 긴 출력 워크로드에서도 그 가치를 입증합니다. 추론 모델의 부상과 함께 chain-of-thought와 같은 긴 출력 워크로드가 급격히 증가하고 있습니다. 1K/8K 시나리오에서 1.36배에서 1.74배 사이의 성능 개선을 확인했으며—이는 긴 디코드 시퀀스 동안 지속적인 대역폭 활용 최적화의 결과입니다.
처리량과 지연 시간 개선이 거의 동일한 비율로 확장됩니다. 기하 평균은 1.47배 대 1.47배로 거의 대칭적입니다. 이는 저희의 최적화가 단순히 지연 시간-처리량 트레이드오프를 이동시킨 것이 아니라—실제 연산 효율성을 개선했음을 나타냅니다.
하드웨어는 동일합니다. 소프트웨어만 변경되었습니다. 모든 결과는 동일한 AMD MI300X GPU에서 달성되었습니다. 성능 차이는 기본 오픈소스 소프트웨어보다 더 깊이 들어가는 자체 최적화—작은 배치 크기에서의 커널 실행 오버헤드 감소, GPU 메모리 대역폭 활용 극대화, 프리필 연산 최적화 등—에서 비롯됩니다.

결론

AMD GPU에서의 소프트웨어 최적화는 오픈소스 소프트웨어로 끝나는 이야기가 아닙니다. 그리고 InferenceMAX에 공개된 수치가 하드웨어의 성능 한계를 대변하지도 않습니다. 이번 평가에서 저희는 더 깊은 소프트웨어 최적화를 통해 AMD MI300X가 DeepSeek R1 FP8 추론에서—현재 공개된 InferenceMAX 베이스라인 대비— 종단간 지연 시간 1.47배 개선 및 GPU당 처리량 1.47배 향상 을 달성할 수 있음을 입증했습니다.

추론 효율성의 모든 퍼센트 포인트는 대규모로 오픈 웨이트 모델을 서비스하는 CSP와 기업에게 토큰당 비용 절감으로 직접 이어집니다. Moreh는 AMD 인프라 도입을 검토하는 조직에게 검증된 소프트웨어 파트너가 되어, 동일한 하드웨어에서 최대 성능을 이끌어낼 수 있도록 지원합니다. 저희는 AMD GPU에서의 추론 성능의 한계를 지속적으로 넓혀가며, 더 많은 조직이 AMD 인프라의 가치를 온전히 실현할 수 있도록 하겠습니다.

Moreh의 추론 최적화에 대한 자세한 내용은 moreh.io와 docs.moreh.io에서 확인하실 수 있습니다.

Moreh, AMD MI300X의 잠재력을 실현: SGLang(InferenceMax) 대비 1.5배 빠른 DeepSeek R1 추론

서론