Building Block

MoAI Performance Gateway

데이터 센터의 이기종 칩 간에 추론 요청을 라우팅하여 모든 가속기에서 최적의 성능을 끌어냅니다. OpenAI 및 Anthropic 호환 API를 제공하며, 프로덕션을 위해 설계되었습니다.

A New Category

Performance gateway, 새롭게 정의되는 카테고리

AI 게이트웨이는 일반적으로 모델 제공자 또는 리전 간 라우팅을 의미합니다. Moreh는 새로운 카테고리를 정의합니다: 데이터 센터 내부에서, 이미 보유한 칩들 사이의 라우팅을 통해 성능을 끌어냅니다.

Gateway	범위	대상	역할
Semantic gateway	데이터 센터 내부 또는 데이터 센터 간	여러 모델	요청의 의미에 따라 가장 적절한(더 작은) 모델을 선택
Multi-provider gateway	데이터 센터 간	여러 API 제공자	가장 비용 효율적이거나 가용한 리전을 선택
Performance gateway	데이터 센터 내부	여러 칩	데이터 센터 내의 여러 (이기종) 칩 간에 요청을 분산하여 최적의 성능을 달성

Capabilities

성능을 위한 엔지니어링

모든 라우팅 결정은 요청별 KV 캐시 상태, 워크로드 특성, 실시간 엔진 텔레메트리에 기반합니다.

Prefix Cache-Aware Routing

각 요청을 가장 긴 캐시된 prefix를 보유한 칩으로 라우팅하여, 멀티턴 및 긴 컨텍스트 대화에서 KV 캐시 재계산을 최소화합니다.

Request Length-Based Routing

요청의 시퀀스 길이에 가장 적합한 칩과 서빙 구성을 선택하여, 워크로드 특성을 하드웨어에 맞춥니다.

Flexible Routing Composition

선언적 구성을 통해 필터, 스코어러, 피커를 조합하여 커스텀 라우팅 파이프라인을 구성합니다. Prefix cache-aware, load-aware, request length-based, 또는 커스텀 스코어러를 자유롭게 결합할 수 있습니다.

Heterogeneous Prefill-Decode Disaggregation

서로 다른 벤더와 아키텍처의 칩 간에 prefill과 decode 단계를 조율하며, 전송 실패 시 단일 단계 서빙으로 자동 폴백합니다.

GPU 컴퓨트 외 오버헤드 최소화

여러 서비스에 걸쳐 있던 라우팅, 스케줄링, 이벤트 기반 텔레메트리가 단일 바이너리 안에서 실행되어, 요청 핫패스의 프로세스 간 홉을 최소화합니다. 부하 상황에서도 추론 파이프라인의 실질적인 지연은 GPU 컴퓨트 자체뿐입니다.

16×더 낮은 P99 지연Istio + EPP 대비

<1 µsScheduling hot path

Architecture

복잡한 최신 API를 서빙 엔진에서 분리

Tool calling, reasoning budget, chat template, structured output, streaming 프로토콜 — AI API는 매달 더 복잡해지고 있으며, 그 복잡성의 대부분은 GPU와 무관합니다. MoAI Performance Gateway는 이 복잡성을 엣지에서 흡수하여 서빙 엔진을 단순하게 유지합니다: 토큰 in, 토큰 out. 다음 API 표면이나 reasoning 모델로 업데이트할 때 GPU 의존적인 소프트웨어를 건드릴 필요가 없습니다.

Gateway가 처리

엔진이 보는 것

token_ids → engine → token_ids

API Surfaces

여러분의 앱이 이미 사용하는 API를 그대로 지원

OpenAI 및 Anthropic 호환 — agent 및 reasoning 워크로드에 필요한 기능들을 포함합니다.

OpenAI Chat Completions API

POST /v1/chat/completions

OpenAI Responses API

POST /v1/responses

Anthropic Messages API

POST /v1/messages