1.68×
vs ROCm vLLM
단일 서버에서 DeepSeek R1
20,000+
노드당 tok/s
MI300X 클러스터에서 DeepSeek R1
1.7×
크로스 벤더 GPU 활용
NVIDIA + AMD PD disaggregation
2.2×
40% 적은 서버로 처리량 달성
프리픽스 캐시 기반 라우팅
풀스택 추론 소프트웨어
커널부터 클러스터까지
Moreh는 이기종 가속기 전반에 걸쳐 칩 레벨 커널부터 분산 서빙까지 전체 추론 스택을 제공합니다.
MoAI Inference Framework
라우팅 & 스케줄링 · 오토 스케일링 · SLO 기반 최적화 · KV 캐시
Moreh vLLM
SOTA 모델 최적화 · 양자화 · 그래프 실행
Native vLLM
Moreh Libraries
커스텀 커널 · GEMM/Attention/MoE · 통신
AMD Instinct GPU
Tenstorrent 칩
NVIDIA GPU
Why Moreh
Moreh의 추론 소프트웨어가 AI 인프라에 가치를 만드는 세 가지 방법.
비(非) NVIDIA 가속기에서의 추론
커널부터 클러스터 프레임워크까지, AMD GPU에 최적화되고 Tenstorrent 칩에서의 추론을 가능하게 하는 풀스택 소프트웨어.
블로그
전체 보기 ›
크로스 벤더 Disaggregated Inference: NVIDIA H100과 AMD MI300X를 활용한 GPT-OSS 120B
March 18, 2026
MoAI Inference Framework는 H100을 prefill에, MI300X를 decode에 할당하는 크로스 벤더 disaggregation을 구현하여, 단일 벤더 클러스터 대비 최대 43% 낮은 지연 시간과 67% 높은 처리량을 달성합니다.

멀티 노드 Disaggregated Inference: AMD Instinct MI300X GPU에서의 DeepSeek R1 671B
March 17, 2026
Moreh의 Disaggregated Inference는 5노드 AMD MI300X 클러스터에서 DeepSeek R1 671B의 end-to-end 지연 시간을 최대 1.84배 개선하고, P99 inter-token 지연 시간을 12–51배 감소시킵니다.

Moreh, AMD MI300X의 잠재력을 실현: SGLang(InferenceMax) 대비 1.5배 빠른 DeepSeek R1 추론
March 16, 2026
Moreh의 최적화된 추론 엔진은 AMD MI300X에서 DeepSeek R1의 end-to-end 지연 시간과 GPU당 처리량을 InferenceMAX 기준 대비 1.47배 개선합니다.
에코시스템 & 오픈소스
Moreh는 오픈소스 에코시스템에 기여하고 주요 칩 벤더들과 파트너십을 맺고 있습니다.



















