핵심 차별점
하나의 클러스터, 모든 GPU
대부분의 추론 스택은 단일 벤더에 종속됩니다. MoAI Inference Framework는 이 제약을 해소합니다 — 서로 다른 벤더의 칩에서 Prefill과 Decode를 분리하고, 레거시 GPU의 잔여 가치를 활용하거나, 비GPU 가속기를 동일 클러스터에 추가할 수 있습니다. 각 디바이스는 가장 적합한 작업을 수행합니다.
1.7×
크로스 벤더 PD 분리 처리량
0
혼합 벤더 통합 라우팅 오버헤드
통합 API 엔드포인트
라우터 / 스케줄러
NVIDIA
AMD
Tenstorrent
핵심 기능
자동 분리
효율적인 분산 추론은 여러 기법의 조합, GPU 리소스의 최적 할당, 지능형 요청 스케줄링을 필요로 합니다. MoAI Inference Framework는 정의된 SLO와 실시간 트래픽 패턴을 기반으로 이 모든 것을 자동화합니다.
01
SLO 기반 최적화
지연시간 제약 조건을 지정하면 프레임워크가 자동으로 최적의 병렬화 전략과 리소스 할당을 결정하여 비용 대비 처리량을 극대화합니다.
02
Prefill-Decode 분리
이기종 GPU 타입을 포함하여 서로 다른 GPU 풀에서 Prefill과 Decode 단계를 분리하여 각 워크로드 특성에 맞게 리소스 활용을 최적화합니다.
03
Prefix Cache 기반 라우팅
사전 캐시된 Prefix 연산이 있는 인스턴스로 요청을 라우팅하여 TTFT를 최대 20배 단축하고 서버의 40%만으로 2.2배의 처리량을 달성합니다.
04
요청 길이 기반 라우팅
수신 요청을 예상 길이별로 분류하고 각 워크로드 프로필에 최적화된 GPU 풀로 라우팅합니다 — 짧은 프롬프트는 지연시간 최적화 인스턴스로, 긴 컨텍스트는 처리량 최적화 인스턴스로 전달합니다.
05
자동 스케일링
트래픽 패턴에 따라 추론 용량을 자동으로 확장 및 축소하여 최적의 리소스 활용과 비용 효율성을 보장합니다.
아키텍처
Kubernetes Native
MoAI Inference Framework는 Kubernetes 네이티브 컨트롤러 세트로 실행됩니다 — 사이드카 데몬이나 독점 컨트롤 플레인이 없습니다. Helm으로 배포하고, Istio를 포함한 모든 Gateway API Inference Extension 호환 컨트롤러를 통해 노출하며, NFD가 플릿 전체의 이기종 가속기를 자동 감지합니다.
지원 모델
MoAI Inference Framework는 기반 서빙 엔진(Moreh vLLM, vLLM, SGLang 등)이 지원하는 모든 모델과 호환됩니다. 대부분의 오픈소스 LLM을 포함합니다:
지원 하드웨어
가속기
네트워킹