Moreh vLLM

AMD GPU에서 LLM을 서빙하는 가장 빠른 방법

AMD Instinct GPU에서 최대 2배 높은 처리량을 제공하는 vLLM 드롭인 대체제. 동일한 API, 동일한 모델 포맷 — 더 빠른 성능. 단일 Docker 이미지로 몇 분 만에 배포할 수 있습니다.

Benchmarks

모델 전반에 걸친 검증된 성능

DeepSeek R1 671B · 8× AMD Instinct MI300X

입력 길이, 출력 길이, 동시 요청 수별 ROCm vLLM 대비 정규화된 출력 토큰/초.

Moreh vLLM 0.9.0
ROCm vLLM 0.9.2
SGLang 0.4.8
정규화된 출력 TPS (ROCm vLLM = 1)00.51.01.52.02.5(1K, 1K, 1)(1K, 1K, 8)(1K, 1K, 32)(4K, 1K, 1)(4K, 1K, 8)(4K, 1K, 32)(32K, 1K, 1)(32K, 1K, 8)(32K, 1K, 32)(입력 길이, 출력 길이, 동시 요청 수)

vLLM의 benchmark_serving 도구로 측정되었습니다.

시작하기

프리셋 기반 배포

Moreh vLLM은 인기 모델 및 하드웨어 구성에 맞춤 최적화된 프리셋을 제공합니다. 프리셋을 선택하고 모델 경로를 지정하면 병렬성, 메모리, 커널 설정이 자동으로 처리됩니다.

배포 예시

$ docker run --device /dev/kfd --device /dev/dri \
  --network host -v /models:/models \
  moreh/moreh-vllm:latest \
  serve.sh /models/DeepSeek-R1 \
    presets/deepseek-ai-deepseek-r1-amd-mi300x-dp8-moe-ep8.yaml

기술 원리

더 빠른 이유

Moreh vLLM은 AMD GPU 아키텍처에 맞춤 전용 엔진으로 컴퓨팅 백엔드를 대체합니다.

AMD GPU 전용 라이브러리

GEMM, 어텐션, MoE, 퓨즈드 연산 등 AMD GPU 아키텍처에 특화된 컴퓨팅 라이브러리.

모델 최적화

연산 퓨전, 그래프 수준 실행, 양자화 등의 기법으로 각 모델을 최대한 효율적으로 실행합니다.

멀티 GPU 스케일링

통신/컴퓨팅 오버랩, EP 로드 밸런싱 등 서버 내 GPU 간 확장을 위한 최적화.

지원 모델

주요 오픈소스 LLM에 최적화되어 있습니다:

DeepSeekDeepSeekGPT-OSSGPT-OSSLlamaLlamaQwenQwenMistralMistralGLMGLMStepStep외 다수

지원 하드웨어

AMD Instinct MI355XAMD Instinct MI325XAMD Instinct MI308XAMD Instinct MI300XAMD Instinct MI250

독자 모델을 사용 중이신가요?

Moreh는 AMD GPU에서 비공개 및 파인튜닝 모델을 위한 주문형 vLLM 최적화를 제공합니다. 모델 아키텍처에 맞춤 맞춤형 Moreh vLLM을 구축하여 추가 작업 없이 동일한 성능 향상을 얻을 수 있습니다.

StepFun Step3를 AMD MI308X에 최적화한 사례를 확인해 보세요. NVIDIA H20 대비 1.30× 높은 디코드 처리량을 달성했습니다.

문의하기 ›