하나의 클러스터, 모든 GPU
대부분의 추론 스택은 단일 벤더에 종속됩니다. MoAI Inference Framework는 이 제약을 해소합니다 — 서로 다른 벤더의 칩에서 Prefill과 Decode를 분리하고, 레거시 GPU의 잔여 가치를 활용하거나, 비GPU 가속기를 동일 클러스터에 추가할 수 있습니다. 각 디바이스는 가장 적합한 작업을 수행합니다.
통합 API 엔드포인트
퍼포먼스 게이트웨이
NVIDIA
AMD
Tenstorrent
크로스 벤더 소프트웨어 패브릭
자동 분리
효율적인 분산 추론은 여러 기법의 조합, GPU 리소스의 최적 할당, 지능형 요청 스케줄링을 필요로 합니다. MoAI Inference Framework는 정의된 SLO와 실시간 트래픽 패턴을 기반으로 이 모든 것을 자동화합니다.
SLO 기반 최적화
지연시간 제약 조건을 지정하면 프레임워크가 자동으로 최적의 병렬화 전략과 리소스 할당을 결정하여 비용 대비 처리량을 극대화합니다.
Prefill-Decode 분리
이기종 GPU 타입을 포함하여 서로 다른 GPU 풀에서 Prefill과 Decode 단계를 분리하여 각 워크로드 특성에 맞게 리소스 활용을 최적화합니다.
Prefix Cache 기반 라우팅
사전 캐시된 Prefix 연산이 있는 인스턴스로 요청을 라우팅하여 TTFT를 최대 20배 단축하고 서버의 40%만으로 2.2배의 처리량을 달성합니다.
요청 길이 기반 라우팅
수신 요청을 예상 길이별로 분류하고 각 워크로드 프로필에 최적화된 GPU 풀로 라우팅합니다 — 짧은 프롬프트는 지연시간 최적화 인스턴스로, 긴 컨텍스트는 처리량 최적화 인스턴스로 전달합니다.
자동 스케일링
트래픽 패턴에 따라 추론 용량을 자동으로 확장 및 축소하여 최적의 리소스 활용과 비용 효율성을 보장합니다.
빌딩 블록
MoAI Inference Framework는 이기종 가속기에서 최적의 추론을 제공하기 위해 설계된 전용 컴포넌트들로 구성됩니다.
지원 모델
MoAI Inference Framework는 기반 서빙 엔진(Moreh vLLM, vLLM, SGLang 등)이 지원하는 모든 모델과 호환됩니다. 대부분의 오픈소스 LLM을 포함합니다:
지원 하드웨어
가속기
네트워킹