1.68×
vs ROCm vLLM
단일 서버에서 DeepSeek R1
20,000+
노드당 tok/s
MI300X 클러스터에서 DeepSeek R1
1.7×
크로스 벤더 GPU 활용
NVIDIA + AMD PD disaggregation
2.2×
40% 적은 서버로 처리량 달성
프리픽스 캐시 기반 라우팅
풀스택 추론 소프트웨어
커널부터 클러스터까지
Moreh는 이기종 가속기 전반에 걸쳐 칩 레벨 커널부터 분산 서빙까지 전체 추론 스택을 제공합니다.
MoAI Inference Framework
라우팅 & 스케줄링 · 오토 스케일링 · SLO 기반 최적화 · KV 캐시
Moreh vLLM
SOTA 모델 최적화 · 양자화 · 그래프 실행
Native vLLM
Moreh Libraries
커스텀 커널 · GEMM/Attention/MoE · 통신
AMD Instinct GPU
Tenstorrent 칩
NVIDIA GPU
Why Moreh
Moreh의 추론 소프트웨어가 AI 인프라에 가치를 만드는 세 가지 방법.
비(非) NVIDIA 가속기에서의 추론
커널부터 클러스터 프레임워크까지, AMD GPU에 최적화되고 Tenstorrent 칩에서의 추론을 가능하게 하는 풀스택 소프트웨어.
블로그
전체 보기 ›
Moreh Unlocks AMD MI300X Potential: 1.5× Faster DeepSeek R1 Inference vs. SGLang (InferenceMax)
March 16, 2026
Moreh’s optimized inference engine achieves 1.47x improvement in end-to-end latency and throughput per GPU for DeepSeek R1 on AMD MI300X, compared to InferenceMAX baseline.

TIDE: Temporal Incremental Draft Engine for Self-Improving LLM Inference
February 5, 2026
TIDE continuously improves inference speed by training a lightweight draft model in the background, using idle GPUs in the cluster — no extra data preparation or downtime required.

Step3 Inference Optimization on AMD Instinct MI308X: 1.30× Higher Decode Throughput vs. NVIDIA H20
December 29, 2025
Moreh optimized StepFun’s Step3 321B MoE model for AMD Instinct MI308X GPUs, achieving 1.30× higher decode throughput and 23% lower decode latency compared to NVIDIA H20.
에코시스템 & 오픈소스
Moreh는 오픈소스 에코시스템에 기여하고 주요 칩 벤더들과 파트너십을 맺고 있습니다.



















