풀스택 소프트웨어

MoAI Inference Framework

데이터센터 규모의 분산 추론 소프트웨어

벤더, 세대, 아키텍처에 관계없이 보유한 모든 GPU에서 대규모 모델을 단일 API 엔드포인트로 서빙하세요. MoAI Inference Framework가 자동으로 리소스를 할당하고, 요청을 라우팅하며, 용량을 스케일링하여 클러스터가 최저 지연시간으로 최대 처리량을 제공합니다.

데모 요청→문서 보기

핵심 차별점

하나의 클러스터, 모든 GPU

대부분의 추론 스택은 단일 벤더에 종속됩니다. MoAI Inference Framework는 이 제약을 해소합니다 — 서로 다른 벤더의 칩에서 Prefill과 Decode를 분리하고, 레거시 GPU의 잔여 가치를 활용하거나, 비GPU 가속기를 동일 클러스터에 추가할 수 있습니다. 각 디바이스는 가장 적합한 작업을 수행합니다.

1.7×크로스 벤더 PD 분리 처리량

0혼합 벤더 통합 라우팅 오버헤드

시나리오 살펴보기→

통합 API 엔드포인트

퍼포먼스 게이트웨이

NVIDIA

AMD

Tenstorrent

…

크로스 벤더 소프트웨어 패브릭

핵심 기능

자동 분리

효율적인 분산 추론은 여러 기법의 조합, GPU 리소스의 최적 할당, 지능형 요청 스케줄링을 필요로 합니다. MoAI Inference Framework는 정의된 SLO와 실시간 트래픽 패턴을 기반으로 이 모든 것을 자동화합니다.

SLO 기반 최적화

지연시간 제약 조건을 지정하면 프레임워크가 자동으로 최적의 병렬화 전략과 리소스 할당을 결정하여 비용 대비 처리량을 극대화합니다.

Prefill-Decode 분리

이기종 GPU 타입을 포함하여 서로 다른 GPU 풀에서 Prefill과 Decode 단계를 분리하여 각 워크로드 특성에 맞게 리소스 활용을 최적화합니다.

Prefix Cache 기반 라우팅

사전 캐시된 Prefix 연산이 있는 인스턴스로 요청을 라우팅하여 TTFT를 최대 20배 단축하고 서버의 40%만으로 2.2배의 처리량을 달성합니다.

요청 길이 기반 라우팅

수신 요청을 예상 길이별로 분류하고 각 워크로드 프로필에 최적화된 GPU 풀로 라우팅합니다 — 짧은 프롬프트는 지연시간 최적화 인스턴스로, 긴 컨텍스트는 처리량 최적화 인스턴스로 전달합니다.

자동 스케일링

트래픽 패턴에 따라 추론 용량을 자동으로 확장 및 축소하여 최적의 리소스 활용과 비용 효율성을 보장합니다.

아키텍처

빌딩 블록

MoAI Inference Framework는 이기종 가속기에서 최적의 추론을 제공하기 위해 설계된 전용 컴포넌트들로 구성됩니다.

MoAI Performance Gateway

이기종 가속기 간 지능적 워크로드 분배.

자세히 보기→

MoAI Fabric

크로스 벤더 GPU 메모리 패브릭을 통한 소프트웨어 정의 KV 캐시 전송.

자세히 보기→

MoAI Autopilot

SLO 기반 서빙 스택 구성 및 지속 최적화.

출시 예정

Moreh vLLM for AMD

AMD GPU에서 최대 2배 높은 처리량의 vLLM 드롭인 대체제.

자세히 보기→

Moreh vLLM for Tenstorrent

Tenstorrent 가속기에서의 고성능 vLLM 서빙.

자세히 보기→

Models

지원 모델

MoAI Inference Framework는 기반 서빙 엔진(Moreh vLLM, vLLM, SGLang 등)이 지원하는 모든 모델과 호환됩니다. 대부분의 오픈소스 LLM을 포함합니다:

Hardware

지원 하드웨어

가속기

NVIDIA

AMD

Tenstorrent

네트워킹

RDMA interconnect