Benchmarks
모델 전반에 걸친 검증된 성능
DeepSeek R1 671B · 8× AMD Instinct MI300X
입력 길이, 출력 길이, 동시 요청 수별 ROCm vLLM 대비 정규화된 출력 토큰/초.
Moreh vLLM 0.9.0
ROCm vLLM 0.9.2
SGLang 0.4.8
vLLM의 benchmark_serving 도구로 측정되었습니다.
추가 평가 보고서
Moreh Unlocks AMD MI300X Potential: 1.5× Faster DeepSeek R1 Inference vs. SGLang (InferenceMax)Step3 Inference Optimization on AMD Instinct MI308X: 1.30× Higher Decode Throughput vs. NVIDIA H20Moreh vLLM Performance Evaluation: Llama 3.3 70B on AMD Instinct MI300X GPUsMoreh vLLM Performance Evaluation: DeepSeek V3/R1 671B on AMD Instinct MI300X GPUs
시작하기
프리셋 기반 배포
Moreh vLLM은 인기 모델 및 하드웨어 구성에 맞춤 최적화된 프리셋을 제공합니다. 프리셋을 선택하고 모델 경로를 지정하면 병렬성, 메모리, 커널 설정이 자동으로 처리됩니다.
배포 예시
$ docker run --device /dev/kfd --device /dev/dri \
--network host -v /models:/models \
moreh/moreh-vllm:latest \
serve.sh /models/DeepSeek-R1 \
presets/deepseek-ai-deepseek-r1-amd-mi300x-dp8-moe-ep8.yaml기술 원리
더 빠른 이유
Moreh vLLM은 AMD GPU 아키텍처에 맞춤 전용 엔진으로 컴퓨팅 백엔드를 대체합니다.
AMD GPU 전용 라이브러리
GEMM, 어텐션, MoE, 퓨즈드 연산 등 AMD GPU 아키텍처에 특화된 컴퓨팅 라이브러리.
모델 최적화
연산 퓨전, 그래프 수준 실행, 양자화 등의 기법으로 각 모델을 최대한 효율적으로 실행합니다.
멀티 GPU 스케일링
통신/컴퓨팅 오버랩, EP 로드 밸런싱 등 서버 내 GPU 간 확장을 위한 최적화.
지원 모델
주요 오픈소스 LLM에 최적화되어 있습니다:
지원 하드웨어
AMD Instinct MI355XAMD Instinct MI325XAMD Instinct MI308XAMD Instinct MI300XAMD Instinct MI250
독자 모델을 사용 중이신가요?
Moreh는 AMD GPU에서 비공개 및 파인튜닝 모델을 위한 주문형 vLLM 최적화를 제공합니다. 모델 아키텍처에 맞춤 맞춤형 Moreh vLLM을 구축하여 추가 작업 없이 동일한 성능 향상을 얻을 수 있습니다.
StepFun Step3를 AMD MI308X에 최적화한 사례를 확인해 보세요. NVIDIA H20 대비 1.30× 높은 디코드 처리량을 달성했습니다.
문의하기 ›