MoAI Inference Framework

데이터센터 규모의 분산 추론 자동화

벤더, 세대, 아키텍처에 관계없이 보유한 모든 GPU에서 대규모 모델을 단일 API 엔드포인트로 서빙하세요. MoAI Inference Framework가 자동으로 리소스를 할당하고, 요청을 라우팅하며, 용량을 스케일링하여 클러스터가 최저 지연시간으로 최대 처리량을 제공합니다.

데모 요청 문서 보기

핵심 차별점

하나의 클러스터, 모든 GPU

대부분의 추론 스택은 단일 벤더에 종속됩니다. MoAI Inference Framework는 이 제약을 해소합니다 — 서로 다른 벤더의 칩에서 Prefill과 Decode를 분리하고, 레거시 GPU의 잔여 가치를 활용하거나, 비GPU 가속기를 동일 클러스터에 추가할 수 있습니다. 각 디바이스는 가장 적합한 작업을 수행합니다.

1.7×

크로스 벤더 PD 분리 처리량

혼합 벤더 통합 라우팅 오버헤드

시나리오 살펴보기 ›

통합 API 엔드포인트

퍼포먼스 게이트웨이

NVIDIA

AMD

Tenstorrent

…

크로스 벤더 소프트웨어 패브릭

핵심 기능

자동 분리

효율적인 분산 추론은 여러 기법의 조합, GPU 리소스의 최적 할당, 지능형 요청 스케줄링을 필요로 합니다. MoAI Inference Framework는 정의된 SLO와 실시간 트래픽 패턴을 기반으로 이 모든 것을 자동화합니다.

SLO 기반 최적화

지연시간 제약 조건을 지정하면 프레임워크가 자동으로 최적의 병렬화 전략과 리소스 할당을 결정하여 비용 대비 처리량을 극대화합니다.

Prefill-Decode 분리

이기종 GPU 타입을 포함하여 서로 다른 GPU 풀에서 Prefill과 Decode 단계를 분리하여 각 워크로드 특성에 맞게 리소스 활용을 최적화합니다.

Prefix Cache 기반 라우팅

사전 캐시된 Prefix 연산이 있는 인스턴스로 요청을 라우팅하여 TTFT를 최대 20배 단축하고 서버의 40%만으로 2.2배의 처리량을 달성합니다.

요청 길이 기반 라우팅

수신 요청을 예상 길이별로 분류하고 각 워크로드 프로필에 최적화된 GPU 풀로 라우팅합니다 — 짧은 프롬프트는 지연시간 최적화 인스턴스로, 긴 컨텍스트는 처리량 최적화 인스턴스로 전달합니다.

자동 스케일링

트래픽 패턴에 따라 추론 용량을 자동으로 확장 및 축소하여 최적의 리소스 활용과 비용 효율성을 보장합니다.

아키텍처

Kubernetes Native

MoAI Inference Framework는 Kubernetes 네이티브 컨트롤러 세트로 실행됩니다 — 사이드카 데몬이나 독점 컨트롤 플레인이 없습니다. Helm으로 배포하고, Istio를 포함한 모든 Gateway API Inference Extension 호환 컨트롤러를 통해 노출하며, NFD가 플릿 전체의 이기종 가속기를 자동 감지합니다.

Kubernetes NativeGateway API Inference ExtensionIstio CompatibleHelm ChartsNFD IntegrationRoCE Networking