Solution

달러당 토큰 극대화

LLM 추론 비용은 AI 운영 예산의 대부분을 차지하며, 모델 규모가 커지고 에이전트 워크로드가 다양해지면서 계속 증가하고 있습니다. Moreh는 모든 수준에서 최적화하여 달러당 최대 토큰을 제공합니다.

비용 절감을 위한 세 가지 레버

세 가지 레버는 곱셈적으로 작동합니다 — 칩 최적화 곱하기 클러스터 효율 곱하기 인프라 비용 절감.

DeepSeek R1 671B에서 ROCm vLLM 대비 1.68배 높은 처리량. 커스텀 연산, 정밀도 최적화, 연산자 퓨전으로 모든 GPU에서 초당 최대 토큰을 추출합니다.

Custom GEMM/Attention/MoEOperation fusionQuantizationComm/compute overlapEP load balancing

Prefix cache 인식 라우팅으로 40% 적은 서버에서 2.2배 처리량. Prefill-decode 분리, 스마트 라우팅, 오토 스케일링, SLO 기반 최적화로 전체 클러스터의 활용률을 극대화합니다.

PD disaggregationPrefix cache-aware routingSLO-driven optimization

크로스 벤더 prefill-decode 분리를 통해 NVIDIA와 AMD GPU를 결합하여 1.7배 처리량. 비용 효율적인 AMD GPU, Tenstorrent 가속기 또는 기존 구세대 하드웨어를 활용하여 모든 GPU가 클러스터 처리량에 기여합니다.

Cross-vendor PD disaggregationModel-aware GPU placementLength-based routing

모델, 트래픽 패턴, 하드웨어를 공유해 주시면 맞춤 벤치마크를 실행하고 비용 절감 효과를 보여드립니다.