Moreh vLLM Performance Evaluation: Llama 3.3 70B on AMD Instinct MI300X GPUs

개요

Moreh는 사전학습부터 추론까지 다양한 AI 워크로드를 NVIDIA 이외의 가속기, 특히 AMD GPU에서 효율적으로 실행할 수 있는 소프트웨어를 개발하고 있습니다.

vLLM은 연구, 기업, 프로덕션 환경에서 LLM 서비스를 운영하기 위해 가장 널리 채택된 추론 엔진 중 하나입니다. 학계와 산업계의 기여를 통해 강력한 오픈소스 커뮤니티가 개발을 이끌고 있으며, 다양한 모델, 하드웨어, 최적화 기법을 폭넓게 지원합니다. AMD 역시 vLLM이 AMD GPU와 ROCm 소프트웨어 스택에서 동작하도록 프로젝트에 기여하고 있습니다. 그럼에도 불구하고, vLLM의 대부분의 최적화는 여전히 NVIDIA GPU를 대상으로 하고 있으며, AMD GPU 하드웨어의 성능이 충분히 활용되지 못하고 있습니다.

Moreh vLLM은 AMD GPU에서 우수한 LLM 추론 성능을 제공하도록 설계된 최적화된 vLLM 버전입니다. 기존 vLLM과 동일한 모델 및 기능을 지원하면서, AMD CDNA 아키텍처에서 연산 성능을 극대화합니다. 이는 Moreh의 독자적인 연산 및 통신 라이브러리, 모델 수준의 최적화, vLLM 엔진 수준의 수정을 통해 달성됩니다.

본 기술 보고서는 Moreh vLLM에서 Meta의 Llama 3.3 70B 모델의 추론 성능을 평가합니다. 다양한 입력/출력 길이와 동시 접속 수에 대해 종합적인 테스트를 수행했습니다. 기존 vLLM 대비 Moreh vLLM은 평균 1.68배 높은 처리량(총 출력 토큰/초)을 달성합니다. 또한 지연 시간 지표(첫 번째 토큰까지의 시간 및 출력 토큰당 시간)를 각각 평균 2.02배, 1.59배 줄였습니다. 결론적으로, Moreh vLLM을 도입하면 AMD MI300 시리즈 GPU의 잠재력을 최대한 끌어내어 효율적인 추론 시스템으로 활용할 수 있습니다.

AMD Instinct MI300X GPU

AMD Instinct MI300X GPU는 NVIDIA H100의 강력한 대안입니다. H100 대비 1.32배 높은 이론적 연산 성능, 2.4배 큰 메모리 용량, 1.58배 높은 최대 메모리 대역폭을 제공합니다. 특히 훨씬 큰 메모리 용량과 대역폭은 LLM 추론 최적화에 큰 이점이 됩니다. 표 1은 상세한 하드웨어 사양을 비교합니다.

AMD는 MI300X의 후속 제품으로 MI325X와 MI355X도 출시했으며, 이는 각각 NVIDIA의 H200 및 B200 GPU와 직접 경쟁하는 제품입니다. 이러한 차세대 모델들도 AMD CDNA3 아키텍처를 기반으로 하므로, Moreh vLLM의 모든 최적화가 원활하게 적용됩니다. 가까운 시일 내에 MI325X 및 MI355X에 대한 성능 평가 결과를 발표할 예정이며, 개발 및 테스트 서버를 제공할 수 있는 파트너를 항상 환영합니다.

실험 환경

모든 실험은 다음과 같이 구성된 MI300X 서버에서 수행되었습니다:

Server: Lenovo ThinkSystem SR685a V3
CPU: 2x AMD EPYC 9534 (128 cores in total, 2.45 GHz)
GPU: 8x AMD Instinct MI300X OAM
Main Memory: 2,304 GB (24x 96 GB)
Operating System: Ubuntu 22.04.4 (Linux kernel 5.15.0-25-generic)
ROCm Version: 6.8.5

비교 기준(baseline)으로 오픈소스 vLLM 0.9.2 (https://github.com/ROCm/vllm의 v0.9.2 태그)를 사용했습니다. 이는 테스트 시점에서 사용 가능한 최신 버전이었습니다. Llama 3.3 70B 모델은 서버의 GPU 2장에서 tensor parallelism (TP) 2로 병렬 실행되었습니다. 성능 측정에는 vLLM의 benchmark_serving 도구를 사용했습니다. 표 2와 같이 입력 시퀀스 길이(ISL), 출력 시퀀스 길이(OSL), 동시 접속 수의 64가지 조합을 선택했습니다. 실험 설계는 국내 고객사 중 한 곳과의 논의를 통해 결정되었습니다.

Output TPS, TTFT, TPOT

Output tokens per second (TPS), time to first token (TTFT), time per output token (TPOT)은 LLM 추론 성능을 평가하는 세 가지 핵심 지표입니다. Output tokens per second는 시스템의 전체 처리량을 측정하며, 모든 동시 요청에 대해 모델이 1초에 생성할 수 있는 토큰 수를 나타냅니다. Time to first token은 초기 지연 시간을 측정합니다 – 요청이 전송된 시점부터 첫 번째 토큰이 생성되기까지의 시간입니다. Time per output token은 첫 번째 토큰 이후 각 후속 토큰을 생성하는 데 소요되는 평균 시간을 나타냅니다. Output tokens per second는 서비스 비용(토큰당 비용)과 직결됩니다. 나머지 두 지표는 사용자가 체감하는 응답성에 중요합니다. 이 세 가지 지표를 함께 측정하면 비용과 사용자 경험의 균형을 맞추며 추론 성능을 종합적으로 파악할 수 있습니다.

그림 1은 output tokens per second를 비교한 그래프입니다. 그림 2와 그림 3은 각각 평균 time to first token과 평균 time per output token을 비교한 그래프입니다. 원시 데이터는 부록에서 확인할 수 있습니다.

Moreh vLLM은 기존 vLLM 대비 1.68배 높은 총 output tokens per second, 2.02배 낮은 time to first token, 1.59배 낮은 time per output token을 달성합니다. 특히 긴 입력 시퀀스에 대한 time to first token이 약 3-4배 감소하는 것을 확인할 수 있습니다. 이는 동일한 AMD MI300 시리즈 GPU 시스템에서 소프트웨어를 Moreh vLLM으로 교체하는 것만으로도 비용을 절감하면서 사용자 경험을 개선할 수 있음을 보여줍니다.

그림 1. 다양한 요청 패턴에 대한 output tokens per second. 높을수록 좋음. Moreh vLLM이 평균 1.68배 높은 성능을 보임.

그림 2. 다양한 요청 패턴에 대한 평균 time to first token. 낮을수록 좋음. Moreh vLLM이 평균 2.02배 낮은 지연 시간을 보임.

그림 3. 다양한 요청 패턴에 대한 평균 time per output token. 낮을수록 좋음. Moreh vLLM이 평균 1.59배 낮은 지연 시간을 보임.

지연 시간과 처리량 간의 트레이드오프

LLM 추론에는 지연 시간과 처리량 간의 본질적인 트레이드오프가 존재합니다. vLLM 인스턴스의 최대 동시 접속 수를 늘리면 처리량은 향상되지만 지연 시간도 증가하며, 동시 접속 수를 줄이면 지연 시간은 개선되지만 처리량이 감소합니다. 그림 4는 다양한 요청 패턴(입력/출력 시퀀스 길이)에 대한 기존 vLLM과 Moreh vLLM의 지연 시간-처리량 트레이드오프 곡선을 보여줍니다. 전반적으로 그래프가 왼쪽 위로 이동할수록 성능 특성이 우수합니다.

그림 4. 다양한 입력/출력 시퀀스 길이에 대한 time per output token (지연 시간)과 output tokens per second (처리량) 간의 트레이드오프 곡선.

결론

Moreh vLLM은 독자적인 GPU 라이브러리, 모델 수준의 최적화, vLLM 엔진 수정 등 다양한 기법을 적용하여 Llama 3.3 70B 모델의 추론을 최적화합니다. 그 결과 Moreh vLLM은 다양한 추론 지표에서 기존 오픈소스 vLLM 대비 상당한 성능 향상을 달성합니다. AMD MI300 시리즈 GPU 서버에 Moreh vLLM을 도입하면 LLM 서비스의 비용을 절감하면서 동시에 지연 시간을 개선할 수 있습니다. Moreh는 고객의 독자적인 AI 모델을 AMD GPU에서 최적화하고 이를 위한 맞춤형 vLLM을 제공하는 서비스도 운영하고 있습니다.

부록: 원시 데이터

(PDF 파일을 참조해 주세요.)

Moreh vLLM 성능 평가: AMD Instinct MI300X GPU에서의 Llama 3.3 70B

개요

AMD Instinct MI300X GPU

실험 환경

Output TPS, TTFT, TPOT

지연 시간과 처리량 간의 트레이드오프

결론

부록: 원시 데이터