Moreh vLLM Performance Evaluation: DeepSeek V3/R1 671B on AMD Instinct MI300X GPUs

개요

Moreh는 사전학습부터 추론까지 다양한 AI 워크로드를 NVIDIA가 아닌 가속기에서도 효율적으로 실행할 수 있는 소프트웨어를 개발하며, 특히 AMD GPU에 중점을 두고 있습니다.

vLLM은 연구, 기업, 프로덕션 환경에서 LLM 서비스를 운영하기 위해 가장 널리 채택된 추론 엔진 중 하나입니다. 학계와 산업계의 기여로 강력한 오픈소스 커뮤니티에 의해 개발되며, 다양한 모델, 하드웨어, 최적화 기법을 폭넓게 지원합니다. AMD 역시 vLLM이 AMD GPU 및 ROCm 소프트웨어 스택에서 동작하도록 프로젝트에 기여하고 있습니다. 그럼에도 불구하고 vLLM의 대부분의 최적화는 여전히 NVIDIA GPU를 대상으로 하고 있으며, AMD GPU 하드웨어의 성능은 아직 충분히 활용되지 못하고 있습니다.

Moreh vLLM은 AMD GPU에서 우수한 LLM 추론 성능을 제공하도록 설계된 vLLM의 최적화 버전입니다. 기존 vLLM과 동일한 모델 및 기능을 지원하면서 AMD CDNA 아키텍처에서 연산 성능을 극대화합니다. 이는 Moreh의 독자적인 연산 및 통신 라이브러리, 모델 수준 최적화, 그리고 vLLM 엔진 수준의 수정을 통해 달성됩니다.

본 기술 보고서는 현재 가장 진보된 오픈소스 LLM 중 하나인 DeepSeek V3/R1 671B 모델의 Moreh vLLM 기반 추론 성능을 평가합니다. 다양한 입출력 길이 및 동시 처리 수준에서 포괄적인 테스트를 수행하였습니다. 기존 vLLM 대비 Moreh vLLM은 평균 1.68배 높은 처리량(초당 총 출력 토큰 수)을 달성합니다. 또한 지연 시간 지표(첫 번째 토큰까지의 시간 및 출력 토큰당 시간)를 각각 평균 1.75배, 1.70배 단축합니다. 결론적으로 Moreh vLLM을 도입하면 AMD MI300 시리즈 GPU의 잠재력을 완전히 활용하여 효율적인 추론 시스템으로 운용할 수 있습니다.

AMD Instinct MI300X GPU

AMD Instinct MI300X GPU는 NVIDIA H100의 강력한 대안입니다. H100 대비 1.32배 높은 이론적 연산 성능, 2.4배 큰 메모리 용량, 1.58배 높은 최대 메모리 대역폭을 제공합니다. 특히 현저히 큰 메모리 용량과 대역폭은 LLM 추론 최적화에 있어 큰 이점입니다. Table 1에서 상세 하드웨어 사양을 비교합니다.

Table 1. Comparison between NVIDIA H100 and AMD MI300X — Table 1. NVIDIA H100과 AMD MI300X 비교

AMD는 MI300X의 후속으로 MI325X와 MI355X를 출시하였으며, 이는 각각 NVIDIA H200 및 B200 GPU의 직접적인 경쟁 제품입니다. 이러한 차세대 모델들도 AMD CDNA3 아키텍처를 기반으로 하므로, Moreh vLLM의 모든 최적화가 그대로 적용됩니다. 가까운 시일 내에 MI325X 및 MI355X에서의 성능 평가 결과를 공개할 예정이며, 개발 및 테스트 서버를 제공해 주실 파트너를 항상 환영합니다.

DeepSeek V3/R1 671B 최적화

Moreh vLLM은 DeepSeek 671B 모델의 성능을 향상시키기 위해 다음을 포함한 다수의 최적화를 적용합니다:

최적 GEMM 및 Attention 커널 선택: 다양한 시나리오(예: 서로 다른 입출력 시퀀스 길이 및 배치 크기)에서 일관되게 높은 성능을 달성하기 위해, Moreh vLLM은 온라인 프로파일링이나 수동 튜닝 없이 최적의 GEMM 및 Attention 커널을 동적으로 선택합니다.
Fused MoE 커널 최적화: AMD의 AITER 라이브러리보다 뛰어난 성능을 제공하는 고도로 최적화된 fused MoE 커널을 구현하였으며, 특히 작은 배치 크기에서 효과적입니다.
FP8 KV Cache 지원: Moreh vLLM은 KV cache를 FP8 형식으로 저장하고 로드할 수 있는 Multi-head Latent Attention (MLA) 커널을 포함합니다. 이 최적화는 특히 긴 컨텍스트 시나리오에서 성능을 크게 향상시킵니다.
수직 및 수평 커널 융합: Moreh vLLM은 수직 융합(예: fused RoPE 커널)과 수평 융합(예: shared expert의 여러 GEMM 병합)을 모두 활용하여 커널 실행 오버헤드를 줄이고 연산 효율성을 높입니다.
vLLM 엔진 수준 수정: AMD GPU를 보다 효율적으로 활용하기 위해 vLLM 엔진 수준에서 수정을 수행하였으며, 여기에는 간소화된 커널 실행을 위한 HIP 그래프 활용이 포함됩니다.

실험 설정

모든 실험은 다음과 같이 구성된 MI300X 서버에서 수행되었습니다:

Server: Lenovo ThinkSystem SR685a V3
CPU: 2x AMD EPYC 9534 (128 cores in total, 2.45 GHz)
GPU: 8x AMD Instinct MI300X OAM
Main Memory: 2,304 GB (24x 96 GB)
Operating System: Ubuntu 22.04.4 (Linux kernel 5.15.0-25-generic)
ROCm Version: 6.8.5

비교 기준으로 오픈소스 vLLM 0.9.2(https://github.com/ROCm/vllm의 v0.9.2 태그)를 사용하였습니다. 이는 테스트 시점에서 사용 가능한 최신 버전이었습니다. DeepSeek 모델은 tensor parallelism (TP) 8로 서버의 8개 GPU에 걸쳐 병렬 실행되었습니다. AMD MI300X의 192 GB 대용량 메모리 덕분에 GPU당 FP8 형식으로 약 840억 개의 파라미터를 저장한 후에도 GPU 메모리의 절반 이상이 여유로 남습니다. 이를 통해 서버는 높은 동시 처리로 수많은 요청을 처리할 수 있어, 대규모 생성형 AI 워크로드에서 큰 이점을 보여줍니다. 성능은 vLLM의 benchmark_serving 도구를 사용하여 측정하였습니다. Table 2에 나타난 바와 같이 입력 시퀀스 길이(ISL), 출력 시퀀스 길이(OSL), 동시 처리 수의 70가지 조합을 선택하였습니다. 실험 설정은 한국의 고객사 중 하나와의 논의를 통해 결정되었습니다.

Table 2. Various request patterns used for performance measurement — Table 2. 성능 측정에 사용된 다양한 요청 패턴

Output TPS, TTFT, TPOT

Output tokens per second (TPS), time to first token (TTFT), time per output token (TPOT)은 LLM 추론 성능을 평가하기 위한 세 가지 핵심 지표입니다. Output tokens per second는 시스템의 전체 처리량을 측정하며, 모든 동시 요청에 걸쳐 모델이 1초에 생성할 수 있는 토큰 수를 나타냅니다. Time to first token은 초기 지연 시간, 즉 요청이 전송된 시점부터 첫 번째 토큰이 생성되기까지의 시간을 측정합니다. Time per output token은 첫 번째 토큰 이후 각 후속 토큰을 생성하는 데 걸리는 평균 시간을 나타냅니다. Output tokens per second는 서비스 비용(토큰당 비용)과 직결됩니다. 나머지 두 지표는 사용자가 체감하는 응답성에 중요합니다. 이 세 가지 지표를 함께 측정하면 비용과 사용자 경험의 균형을 잡는 추론 성능의 종합적인 평가가 가능합니다.

Figure 1은 output tokens per second를 비교한 그래프입니다. Figure 2와 Figure 3은 각각 평균 time to first token과 평균 time per output token을 비교한 그래프입니다. 원시 데이터는 부록에서 확인할 수 있습니다.

Moreh vLLM은 기존 vLLM 대비 1.68배 높은 총 output tokens per second, 1.75배 낮은 time to first token, 1.7배 낮은 time per output token을 달성합니다. 이는 동일한 AMD MI300 시리즈 GPU 시스템에서 소프트웨어를 Moreh vLLM으로 교체하는 것만으로 비용을 절감하면서 사용자 경험을 향상시킬 수 있음을 보여줍니다.

Figure 1. Output tokens per second for various request patterns. Higher is better. Moreh vLLM shows an average of 1.68x higher performance. — Figure 1. 다양한 요청 패턴에 대한 output tokens per second. 높을수록 좋음. Moreh vLLM은 평균 1.68배 높은 성능을 보여줍니다.

Figure 2. Mean time to first token for various request patterns. Lower is better. Moreh vLLM shows an average of 1.75x lower latency. — Figure 2. 다양한 요청 패턴에 대한 평균 time to first token. 낮을수록 좋음. Moreh vLLM은 평균 1.75배 낮은 지연 시간을 보여줍니다.

Figure 3. Mean time per output token for various request patterns. Lower is better. Moreh vLLM shows an average of 1.70x lower latency. — Figure 3. 다양한 요청 패턴에 대한 평균 time per output token. 낮을수록 좋음. Moreh vLLM은 평균 1.70배 낮은 지연 시간을 보여줍니다.

지연 시간과 처리량 간의 트레이드오프

LLM 추론에는 지연 시간과 처리량 사이의 본질적인 트레이드오프가 존재합니다. vLLM 인스턴스의 최대 동시 처리 수를 늘리면 처리량은 향상되지만 지연 시간도 증가하며, 동시 처리 수를 줄이면 지연 시간은 개선되지만 처리량은 감소합니다. Figure 4는 다양한 요청 패턴(입출력 시퀀스 길이)에 대한 기존 vLLM과 Moreh vLLM의 지연 시간-처리량 트레이드오프 곡선을 보여줍니다. 전반적으로 그래프가 좌상단에 가까울수록 더 우수한 성능 특성을 나타냅니다.

Figure 4. Trade-off curves between time per output token (latency) and output tokens per second (throughput), for different input/output sequence lengths. — Figure 4. 서로 다른 입출력 시퀀스 길이에 대한 time per output token (지연 시간)과 output tokens per second (처리량) 간의 트레이드오프 곡선.

결론

Moreh vLLM은 독자적인 GPU 라이브러리, 모델 수준 최적화, vLLM 엔진 수정 등 다양한 기법을 적용하여 DeepSeek V3/R1 모델의 추론을 최적화합니다. 그 결과, Moreh vLLM은 다양한 추론 지표에서 기존 오픈소스 vLLM 대비 상당한 성능 향상을 달성합니다. AMD MI300 시리즈 GPU 서버에서 Moreh vLLM을 도입하면 LLM 서비스의 비용을 절감하면서 동시에 지연 시간을 개선할 수 있습니다. Moreh는 또한 고객의 독자적인 AI 모델을 AMD GPU에서 최적화하고 이를 위한 맞춤형 vLLM을 제공하는 서비스도 운영하고 있습니다.

부록: 원시 데이터

(PDF 파일을 참조하십시오.)

AMD Instinct MI300X GPU에서의 Moreh vLLM 성능 평가: DeepSeek V3/R1 671B

개요