Solution

하나의 추론 클러스터, 모든 GPU

AI 데이터센터는 조달 주기에 따라 다양한 벤더, 아키텍처, 세대의 GPU가 축적됩니다. 기존 소프트웨어로는 이들을 함께 운영할 수 없어 구세대 GPU는 유휴 상태가 되고 단일 벤더에 종속됩니다. Moreh의 소프트웨어는 모든 칩을 하나의 추론 시스템으로 통합합니다.

세 가지 시나리오, 하나의 플랫폼

시나리오 1

e.g., H100 + B200

구세대 GPU를 다시 활용하세요 — 신세대 GPU에서 작업을 분담하고 추론적 디코딩 효율을 높여 모든 세대가 클러스터 처리량에 기여합니다.

시나리오 2

e.g., H200 + MI355X

단일 API 엔드포인트에서 NVIDIA와 AMD GPU에 걸쳐 추론을 라우팅하고, 벤더 간 prefill과 decode를 분리하여 더 높은 처리량을 달성합니다.

시나리오 3

e.g., GPU + Tenstorrent

GPU와 Tenstorrent 칩 같은 전문 AI 가속기를 혼합하여 각 워크로드에 가장 적합한 장치를 활용합니다.

이 모든 기능은 MoAI Inference Framework 에 내장되어 있으며, 클러스터 규모에서 이기종 GPU를 오케스트레이션하는 단일 플랫폼입니다.

대형 모델은 신세대 GPU에, 소형 모델은 구세대 GPU에

모델 크기와 하드웨어 성능을 기반으로 가장 적합한 GPU 풀에 모델을 자동 할당합니다 — 최신 세대 GPU에서 주력 모델을 실행하고 구세대 GPU가 경량 모델을 처리합니다.

벤더 A에서 prefill, 벤더 B에서 decode

NVIDIA GPU로 prefill을, AMD GPU로 decode를 수행하여 동일 벤더 구성 대비 1.7배 높은 처리량을 달성합니다. RoCE를 통한 직접 GPU 간 데이터 전송을 위한 크로스 벤더 RDMA 통신 라이브러리로 실현됩니다.

연산 집약적 GPU에서 prefill, 고대역폭 GPU에서 decode

각 추론 단계를 해당 프로필에 맞는 GPU에 매칭합니다 — 연산 집약적 prefill은 한 칩에서, 대역폭 집약적 decode는 다른 칩에서 처리합니다. H100 + H20 또는 MI300X + MI308X와 같이 동일 벤더 내 칩 변형 간에도 작동합니다.

짧은 시퀀스는 구세대 GPU로, 긴 시퀀스는 신세대 GPU로

수신 요청을 시퀀스 길이에 따라 처리에 가장 적합한 GPU 풀로 라우팅합니다 — 구세대 GPU는 짧은 워크로드에서 생산성을 유지하고 신세대 GPU는 긴 컨텍스트 요청을 처리합니다.

구세대 GPU에서 prefill, 신세대 GPU에서 decode

긴 컨텍스트 prefill을 여러 구세대 GPU 노드에 분산하여 신세대 GPU가 decode에 집중할 수 있도록 합니다.

구세대 GPU에서 draft 모델 학습, 신세대 GPU에서 더 빠른 decode

구세대 GPU에서 draft 모델을 지속적으로 개선하여 신세대 GPU의 추론적 디코딩 효율을 높입니다 — 모든 세대를 유용하게 활용합니다.

모든 가속기를 자동으로 감지 및 분류

Kubernetes Node Feature Discovery를 통한 자동 GPU 감지 및 분류, 검색된 모든 가속기에 걸친 통합 라우팅을 제공합니다.

이기종 인프라에 MoAI Inference Framework를 배포하는 것에 대해 저희 팀과 상담하세요.