Distributed Inference on Heterogeneous Accelerators Including GPUs, Rubin CPX, and AI Accelerators

추론 비용 절감은 이제 모든 AI 데이터센터와 서비스 기업이 직면한 핵심 과제 중 하나가 되었습니다. GPU 커널부터 모델 아키텍처에 이르기까지 모든 계층에서 연산량을 줄이고 GPU 활용률을 높이기 위한 다양한 기법들이 고안되고 있습니다.

가장 주목할 만한 주제 중 하나는 클러스터 수준의 분산 추론입니다. 과거에는 추론 최적화가 주로 단일 GPU 또는 단일 노드에서의 성능 달성에 초점을 맞추었습니다. 클러스터 수준에서는 로드 밸런서를 사용하여 노드 간에 요청을 단순히 균등하게 분배하는 방식이었습니다. 그러나 이제 모델과 요청이 여러 GPU 노드에 걸쳐 어떻게 분배되는지가 전체 GPU 활용률에 결정적인 영향을 미친다는 사실이 알려지고 있습니다. disaggregation과 smart routing 같은 분산 추론 기법을 효과적으로 적용하면 주어진 인프라의 동시 처리량을 2~10배까지 높일 수 있습니다. 이는 결과적으로 AI 서비스 비용, 즉 토큰당 비용을 크게 절감시킵니다.

Per-node inference and distributed inference. — 노드별 추론과 분산 추론.

분산 추론이 지금 중요한 이유

분산 추론이 중요해진 가장 큰 이유는 AI 데이터센터가 처리해야 하는 추론 워크로드의 다양성이 증가하고 있기 때문입니다. 기반 LLM은 점점 더 크고 복잡해지고 있습니다. 특히 DeepSeek R1, GPT-OSS 같은 Mixture of Experts (MoE) 모델이 확산되면서 모델 disaggregation이 성능에서 중요한 역할을 하기 시작했습니다. DeepSeek는 효율적인 크로스 노드 Expert Parallelism (EP)을 통해 671B MoE 모델을 저비용으로 서빙하는 소프트웨어 아키텍처를 공개한 바 있습니다.

AI 코딩 어시스턴트와 같이 긴 컨텍스트 추론을 필요로 하는 애플리케이션이 계속 늘어나면서, 들어오는 각 요청의 시퀀스 길이가 매우 가변적이 되었습니다. 서로 다른 성능 특성을 가진 prefill과 decode 단계가 모두 전체 성능에 중요한 요소가 되었습니다. 이에 따라 prefill과 decode 단계에 적절한 수의 GPU를 할당하고, 각 단계에 서로 다른 병렬화 및 최적화 전략을 적용하며, 각 단계별로 요청을 다르게 스케줄링하는 것이 점점 더 중요해지고 있습니다. 또한 KV cache 히트율도 전체 성능에서 중요한 요소가 되었습니다.

마지막으로, 상황에 따라 여러 멀티모달 모델이 동적으로 호출되는 멀티 모델 에이전트 워크플로가 점점 보편화되고 있습니다. 그 결과, 서로 다른 모델에 GPU를 효율적으로 할당하고 다양한 애플리케이션에 대한 서비스 수준 목표(SLO)를 보장하는 것이 어려운 문제가 되었습니다. 데이터센터는 복잡한 GPU 하드웨어의 성능 특성을 이해하면서, 처리량 향상, 지연 시간 감소, 공정성 보장 등 상충하는 지표를 동시에 최적화해야 하는 어려운 과제에 직면해 있습니다.

MoAI Inference Framework

분산 추론은 단순히 prefill-decode, expert parallelization, KV cache aware routing 등 개별적인 disaggregation 및 routing 기법을 적용하는 것을 의미하지 않습니다. 더 큰 과제는 특정 시스템에서 의미 있는 성능 향상을 달성하기 위해 여러 기법을 효과적으로 조합하는 것입니다. 이제 많은 오픈소스 프로젝트가 개별 분산 추론 기법을 지원하고 있지만, 이를 통합하고 실제 인프라에 배포하는 작업은 여전히 수작업에 의존하고 있습니다.

이에 대한 솔루션으로 Moreh는 MoAI Inference Framework를 제시합니다. 이 프레임워크는 NVIDIA GPU뿐만 아니라 AMD GPU 및 Tenstorrent AI accelerator로 구성된 클러스터 시스템에서 효율적인 분산 추론을 가능하게 하도록 설계되었습니다. 고유한 cost model을 활용하여 데이터센터의 수많은 accelerator를 활용하는 최적의 방법을 자동으로 식별, 적용 및 동적으로 조정합니다. 오늘날 가장 복잡한 AI 워크로드 환경에서도 더 빠른 추론 속도, 더 높은 자원 활용률, 더 뛰어난 비용 효율성을 동시에 제공합니다.

AI 데이터센터에서 이기종 Accelerator 혼합 운용

분산 추론의 중요성이 커지는 논리적 귀결로, 더 많은 AI 데이터센터가 서로 다른 유형의 accelerator를 혼합하여 전체 연산 효율을 극대화하려 할 것입니다. 어떤 단일 accelerator도 모든 다양한 추론 워크로드에 최적일 수는 없기 때문에 이는 자연스러운 흐름입니다. 예를 들어, prefill과 decode 단계, 짧은 입력 시퀀스와 긴 입력 시퀀스, 언어 모델과 비디오 생성 모델 간에 최적의 accelerator가 다를 수 있습니다.

NVIDIA가 최근 발표한 Rubin CPX도 이러한 추세와 맞닿아 있습니다. 이 칩은 메모리 대역폭보다 연산 성능을 강조하며, HBM 대신 GDDR7 메모리를 채택했습니다. 구체적으로, 메모리 대역폭은 2 TB/s에 불과하여 20.5 TB/s를 제공하는 Rubin GPU (VR200)의 약 10%에 해당합니다. 그러나 FP4 성능은 20.0 PFLOPS에 달하며, 이는 Rubin GPU의 33.3 PFLOPS의 약 60%입니다.

NVIDIA's Vera Rubin NVL144 CPX system containing 72 Rubin GPUs and 144 Rubin CPX. (Source: NVIDIA Newsroom) — 72개의 Rubin GPU와 144개의 Rubin CPX를 포함하는 NVIDIA의 Vera Rubin NVL144 CPX 시스템. (출처: NVIDIA Newsroom)

CPX와 GPU를 모두 통합한 NVIDIA의 Vera Rubin NVL144 CPX와 같은 클러스터 시스템은 이러한 성능 차이를 다양한 방식으로 활용할 수 있습니다. 가장 기본적으로, LLM 추론에서 연산 바운드인 prefill 단계는 CPX에서, 메모리 바운드인 decode 단계는 GPU에서 실행할 수 있습니다. 이것이 NVIDIA가 CPX에 대해 공개한 활용 사례입니다. 그러나 그 외에도 다양한 가능성이 있습니다. 예를 들어, 상대적으로 연산 바운드인 비디오 생성 모델은 CPX에서, 메모리 바운드인 언어 모델은 GPU에서 실행할 수 있습니다. 또는 단일 모델 내에서 FFN 레이어를 CPX로 오프로딩하고 Attention 레이어는 GPU에서 실행하는 Attention-FFN disaggregation 기법을 확장하는 것도 고려할 수 있습니다. 또 다른 접근 방식은 배치 크기가 작을 때는 주로 GPU에 의존하되, 배치 크기가 커지면 CPX에 더 많은 작업을 할당하는 것입니다.

NVIDIA의 GPU와 CPX 조합 외에도 이기종 클러스터를 구축하기 위한 다양한 구성을 고려할 수 있습니다. 예를 들어, 대규모 데이터센터에서 서로 다른 세대의 NVIDIA GPU를 혼합하는 것은 일반적인 관행입니다. 또 다른 옵션은 NVIDIA GPU와 AMD GPU를 결합하는 것입니다. 이는 단일 하드웨어 벤더에 대한 종속을 방지할 뿐만 아니라, AMD GPU가 일반적으로 메모리 바운드 워크로드에서 동세대 NVIDIA GPU보다 더 나은 성능을 제공한다는 점을 활용할 수 있습니다. 더 나아가, GPU와 Tenstorrent AI accelerator를 혼합할 수도 있습니다. Tenstorrent Wormhole 및 Blackhole 프로세서는 GDDR6 메모리를 사용하며, CPX와 유사하게 연산 바운드 워크로드에 적합합니다.

이기종 Accelerator 분산 추론의 소프트웨어 과제

그러나 이를 실제로 구현하는 데에는 상당한 소프트웨어 과제가 따릅니다. 서로 다른 accelerator 아키텍처에 대해 연산이 충분히 최적화되어야 합니다. 이기종 accelerator 간에 고대역폭, 저지연 통신이 가능해야 합니다. 서로 다른 벤더의 장치 간 RDMA 통신은 물리적으로 가능하지만, 소프트웨어 수준에서 많은 장벽에 직면합니다.

가장 중요한 것은, 이기종 accelerator 간의 효율적인 모델 disaggregation, 워크로드 분배 및 스케일링이 가장 큰 과제라는 점입니다. 단순히 두 가지 워크로드를 두 가지 accelerator 유형으로 나누는 것만으로는 진정한 효율성을 달성할 수 없습니다. 예를 들어, Vera Rubin NVL144 클러스터 시스템에서 CPX와 GPU는 2:1 비율로 설치됩니다. 그러나 prefill과 decode 단계의 비율은 고정되어 있지 않으며, 정확히 2 CPX : 1 GPU가 된다는 보장도 없습니다. 소프트웨어 수준의 동적 자원 할당이 없으면 유휴 자원이 불가피하게 발생합니다. 여러 멀티모달 모델을 동시에 서빙해야 할 때 문제는 더욱 복잡해집니다.

MoAI Inference Framework는 이기종 accelerator 환경에서 그 진가를 발휘합니다. Cost model 기반의 자동화된 분산 추론을 통해, 이기종 accelerator를 동적이고 효과적으로 함께 활용할 수 있습니다. 또한 RoCE 네트워크로 연결된 이기종 벤더 하드웨어 간 RDMA 통신을 가능하게 하는 통신 라이브러리를 포함하고 있습니다. Moreh vLLM은 MoAI Inference Framework의 백엔드로서, AMD GPU와 Tenstorrent AI accelerator를 위한 라이브러리 및 모델 수준 최적화를 통합하여 이들의 잠재력을 최대한 끌어내고, NVIDIA GPU에 필적하거나 능가하는 성능을 가능하게 합니다.

사례 연구: AMD MI300X와 MI308X GPU 간 Disaggregation

MoAI Inference Framework를 활용하여 이기종 accelerator 간 분산 추론을 적용한 실제 사례를 소개합니다. AMD의 MI308X GPU는 기존 MI300X GPU의 변형입니다. MI308X의 메모리 대역폭은 MI300X와 동일한 5.3 TB/s이지만, FP8 연산 성능은 0.47 PFLOPS로 MI300X의 2.6 PFLOPS의 18%에 불과합니다. GPU와 CPX의 관계와 유사하게, 이러한 성능 차이로 인해 MI300X는 연산 바운드인 prefill 단계에 더 유리하고, MI308X는 메모리 바운드인 decode 단계에 더 효율적입니다.

An example of the prefill-decode disaggregation between AMD MI300X and MI308X GPUs. In the output throughput experiments, input length = 31744, output length = 1024, with concurrency = 8 for single-server tests and concurrency = 24 for the cluster-level test. — AMD MI300X와 MI308X GPU 간 prefill-decode disaggregation 예시. Output throughput 실험에서 input length = 31744, output length = 1024이며, 단일 서버 테스트 시 concurrency = 8, 클러스터 수준 테스트 시 concurrency = 24.

MI300X 서버 1대(GPU 8개)와 MI308X 서버 2대(GPU 각 8개)로 구성된 클러스터에서 MoAI Inference Framework를 사용하여 prefill-decode disaggregation을 적용했습니다. disaggregation 없이 DeepSeek R1 671B 모델을 엔드투엔드로 실행했을 때, MI300X 서버는 105.16 tokens/sec의 output throughput을 달성했고, MI308X 서버는 30.42 tokens/sec에 그쳤습니다. 이 서버들을 단순히 로드 밸런서로 연결했다면, 클러스터 전체의 output throughput은 166.00 tokens/sec에 불과했을 것입니다. 그러나 prefill 단계를 MI300X 서버에서, decode 단계를 MI308X 서버에서 분리 실행함으로써, 전체 output throughput이 253.59 tokens/sec으로 증가하여 약 53%의 성능 향상을 달성했습니다.

결론

멀티모달 및 Agentic AI 시대의 도래는 기존의 단일 모델, 단일 서버 추론 시스템에 대한 근본적인 재고를 필요로 합니다. 동시에, NVIDIA의 Rubin CPX 프로세서 발표는 성능 특성에 따라 이기종 accelerator를 활용하는 분산 추론 기법에 주목하게 만들었습니다.

MoAI Inference Framework는 실제 AI 데이터센터에서 분산 추론을 구현하기 위한 최선의 선택입니다. AMD GPU와 Tenstorrent 프로세서를 포함한 비 NVIDIA accelerator에서 최적의 성능을 제공하며, (부분적) 모델과 워크로드를 이기종 accelerator에 분배하는 어렵고 복잡한 작업을 자동화합니다.

여기에 소개된 사례 연구 이상의 결과를 보고 싶으시거나, MoAI Inference Framework를 직접 사용해 보고 싶으시다면 contact@moreh.io로 문의해 주십시오.

GPU, Rubin CPX, AI Accelerator를 포함한 이기종 Accelerator에서의 분산 추론

분산 추론이 지금 중요한 이유

MoAI Inference Framework

AI 데이터센터에서 이기종 Accelerator 혼합 운용

이기종 Accelerator 분산 추론의 소프트웨어 과제

사례 연구: AMD MI300X와 MI308X GPU 간 Disaggregation

결론