모든 가속기에서 최적의 LLM 추론

커스텀 커널부터 분산 서빙까지, AMD GPU, Tenstorrent 칩, 이기종 클러스터에서 최고의 추론 성능을 이끌어내는 풀스택 소프트웨어를 만듭니다.

데모 요청 벤치마크 보기

1.68×

vs ROCm vLLM

단일 서버에서 DeepSeek R1

20,000+

노드당 tok/s

MI300X 클러스터에서 DeepSeek R1

1.7×

크로스 벤더 GPU 활용

NVIDIA + AMD PD disaggregation

2.2×

40% 적은 서버로 처리량 달성

프리픽스 캐시 기반 라우팅

풀스택 추론 소프트웨어

커널부터 클러스터까지

Moreh는 이기종 가속기 전반에 걸쳐 칩 레벨 커널부터 분산 서빙까지 전체 추론 스택을 제공합니다.

MoAI Inference Framework

라우팅 & 스케줄링 · 오토 스케일링 · SLO 기반 최적화 · KV 캐시

Moreh vLLM

SOTA 모델 최적화 · 양자화 · 그래프 실행

Native vLLM

Moreh Libraries

커스텀 커널 · GEMM/Attention/MoE · 통신

AMD Instinct GPU

Tenstorrent 칩

NVIDIA GPU

Why Moreh

Moreh의 추론 소프트웨어가 AI 인프라에 가치를 만드는 세 가지 방법.

비(非) NVIDIA 가속기에서의 추론

커널부터 클러스터 프레임워크까지, AMD GPU에 최적화되고 Tenstorrent 칩에서의 추론을 가능하게 하는 풀스택 소프트웨어.

AMD GPU ›Tenstorrent ›

이기종 GPU 추론

벤더, 아키텍처, 세대가 다른 GPU를 하나의 추론 클러스터로 통합하여 데이터센터의 모든 칩 효율을 극대화합니다.

추론 비용 최적화

칩 레벨 최적화, 통신 최적화, 멀티 벤더 인프라 활용을 통해 달러당 토큰 수를 극대화합니다.

블로그

전체 보기 ›

크로스 벤더 Disaggregated Inference: NVIDIA H100과 AMD MI300X를 활용한 GPT-OSS 120B

March 18, 2026

MoAI Inference Framework는 H100을 prefill에, MI300X를 decode에 할당하는 크로스 벤더 disaggregation을 구현하여, 단일 벤더 클러스터 대비 최대 43% 낮은 지연 시간과 67% 높은 처리량을 달성합니다.

멀티 노드 Disaggregated Inference: AMD Instinct MI300X GPU에서의 DeepSeek R1 671B

March 17, 2026

Moreh의 Disaggregated Inference는 5노드 AMD MI300X 클러스터에서 DeepSeek R1 671B의 end-to-end 지연 시간을 최대 1.84배 개선하고, P99 inter-token 지연 시간을 12–51배 감소시킵니다.

Moreh, AMD MI300X의 잠재력을 실현: SGLang(InferenceMax) 대비 1.5배 빠른 DeepSeek R1 추론

March 16, 2026

Moreh의 최적화된 추론 엔진은 AMD MI300X에서 DeepSeek R1의 end-to-end 지연 시간과 GPU당 처리량을 InferenceMAX 기준 대비 1.47배 개선합니다.

에코시스템 & 오픈소스

Moreh는 오픈소스 에코시스템에 기여하고 주요 칩 벤더들과 파트너십을 맺고 있습니다.