Moreh vLLM

AMD GPU에서 LLM을 서빙하는 가장 빠른 방법

AMD Instinct GPU에서 최대 2배 높은 처리량을 제공하는 vLLM 드롭인 대체제. 동일한 API, 동일한 모델 포맷 — 더 빠른 성능. 단일 Docker 이미지로 몇 분 만에 배포할 수 있습니다.

데모 요청 벤치마크 보기

Benchmarks

모델 전반에 걸친 검증된 성능

DeepSeek R1 671B · 8× AMD Instinct MI300X

입력 길이, 출력 길이, 동시 요청 수별 ROCm vLLM 대비 정규화된 출력 토큰/초.

Moreh vLLM 0.9.0

ROCm vLLM 0.9.2

SGLang 0.4.8

vLLM의 benchmark_serving 도구로 측정되었습니다.

추가 평가 보고서

Moreh, AMD MI300X의 잠재력을 실현: SGLang(InferenceMax) 대비 1.5배 빠른 DeepSeek R1 추론 AMD Instinct MI308X에서의 Step3 추론 최적화: NVIDIA H20 대비 1.30배 높은 Decode 처리량 통신사 LLM 추론 최적화: AMD MI300X에서 1.38배 높은 서빙 용량 달성 Moreh vLLM 성능 평가: AMD Instinct MI300X GPU에서의 Llama 3.3 70B AMD Instinct MI300X GPU에서의 Moreh vLLM 성능 평가: DeepSeek V3/R1 671B

모든 벤치마크 보기 ›

시작하기

프리셋 기반 배포

Moreh vLLM은 인기 모델 및 하드웨어 구성에 맞춤 최적화된 프리셋을 제공합니다. 프리셋을 선택하고 모델 경로를 지정하면 병렬성, 메모리, 커널 설정이 자동으로 처리됩니다.

배포 예시

$ docker run --device /dev/kfd --device /dev/dri \
  --network host -v /models:/models \
  moreh/moreh-vllm:latest \
  serve.sh /models/DeepSeek-R1 \
    presets/deepseek-ai-deepseek-r1-amd-mi300x-dp8-moe-ep8.yaml

기술 원리

더 빠른 이유

Moreh vLLM은 AMD GPU 아키텍처에 맞춤 전용 엔진으로 컴퓨팅 백엔드를 대체합니다.

AMD GPU 전용 라이브러리

GEMM, 어텐션, MoE, 퓨즈드 연산 등 AMD GPU 아키텍처에 특화된 컴퓨팅 라이브러리.

모델 최적화

연산 퓨전, 그래프 수준 실행, 양자화 등의 기법으로 각 모델을 최대한 효율적으로 실행합니다.

멀티 GPU 스케일링

통신/컴퓨팅 오버랩, EP 로드 밸런싱 등 서버 내 GPU 간 확장을 위한 최적화.

지원 모델

주요 오픈소스 LLM에 최적화되어 있습니다:

DeepSeek

GPT-OSS

Llama

Qwen

Mistral

GLM

Step외 다수

지원 하드웨어

AMD Instinct MI355XAMD Instinct MI325XAMD Instinct MI308XAMD Instinct MI300XAMD Instinct MI250

독자 모델을 사용 중이신가요?

Moreh는 AMD GPU에서 비공개 및 파인튜닝 모델을 위한 주문형 vLLM 최적화를 제공합니다. 모델 아키텍처에 맞춤 맞춤형 Moreh vLLM을 구축하여 추가 작업 없이 동일한 성능 향상을 얻을 수 있습니다.

StepFun(MI308X에서 Step3 321B, NVIDIA H20 대비 1.30× 높은 디코드 처리량)과 한국 대형 통신사(MI300X에서 78억 파라미터 계열사 모델, NVIDIA H100 대비 1.38× 높은 서빙 용량)를 포함한 고객사에서 이를 실현했습니다.

문의하기 ›