모든 가속기에서 최적의 LLM 추론

커스텀 커널부터 분산 서빙까지, AMD GPU, Tenstorrent 칩, 이기종 클러스터에서 최고의 추론 성능을 이끌어내는 풀스택 소프트웨어를 만듭니다.

1.68×

vs ROCm vLLM

단일 서버에서 DeepSeek R1

20,000+

노드당 tok/s

MI300X 클러스터에서 DeepSeek R1

1.7×

크로스 벤더 GPU 활용

NVIDIA + AMD PD disaggregation

2.2×

40% 적은 서버로 처리량 달성

프리픽스 캐시 기반 라우팅

풀스택 추론 소프트웨어

커널부터 클러스터까지

Moreh는 이기종 가속기 전반에 걸쳐 칩 레벨 커널부터 분산 서빙까지 전체 추론 스택을 제공합니다.

MoAI Inference Framework

라우팅 & 스케줄링 · 오토 스케일링 · SLO 기반 최적화 · KV 캐시

Moreh vLLM

SOTA 모델 최적화 · 양자화 · 그래프 실행

Native vLLM

Moreh Libraries

커스텀 커널 · GEMM/Attention/MoE · 통신

AMD Instinct GPU

Tenstorrent 칩

NVIDIA GPU

Why Moreh

Moreh의 추론 소프트웨어가 AI 인프라에 가치를 만드는 세 가지 방법.

비(非) NVIDIA 가속기에서의 추론

커널부터 클러스터 프레임워크까지, AMD GPU에 최적화되고 Tenstorrent 칩에서의 추론을 가능하게 하는 풀스택 소프트웨어.

이기종 GPU 추론

벤더, 아키텍처, 세대가 다른 GPU를 하나의 추론 클러스터로 통합하여 데이터센터의 모든 칩 효율을 극대화합니다.

추론 비용 최적화

칩 레벨 최적화, 통신 최적화, 멀티 벤더 인프라 활용을 통해 달러당 토큰 수를 극대화합니다.

에코시스템 & 오픈소스

Moreh는 오픈소스 에코시스템에 기여하고 주요 칩 벤더들과 파트너십을 맺고 있습니다.

AMD ROCm
llm-d
Tenstorrent Metalium
SGLang
SkyPilot
AMD ROCm
llm-d
Tenstorrent Metalium
SGLang
SkyPilot
AMD ROCm
llm-d
Tenstorrent Metalium
SGLang
SkyPilot
AMD ROCm
llm-d
Tenstorrent Metalium
SGLang
SkyPilot