Benchmarks
모델 전반에 걸친 검증된 성능
DeepSeek R1 671B · 8× AMD Instinct MI300X
입력 길이, 출력 길이, 동시 요청 수별 ROCm vLLM 대비 정규화된 출력 토큰/초.
Moreh vLLM 0.9.0
ROCm vLLM 0.9.2
SGLang 0.4.8
vLLM의 benchmark_serving 도구로 측정되었습니다.
추가 평가 보고서
Moreh, AMD MI300X의 잠재력을 실현: SGLang(InferenceMax) 대비 1.5배 빠른 DeepSeek R1 추론AMD Instinct MI308X에서의 Step3 추론 최적화: NVIDIA H20 대비 1.30배 높은 Decode 처리량통신사 LLM 추론 최적화: AMD MI300X에서 1.38배 높은 서빙 용량 달성Moreh vLLM 성능 평가: AMD Instinct MI300X GPU에서의 Llama 3.3 70BAMD Instinct MI300X GPU에서의 Moreh vLLM 성능 평가: DeepSeek V3/R1 671B
시작하기
프리셋 기반 배포
Moreh vLLM은 인기 모델 및 하드웨어 구성에 맞춤 최적화된 프리셋을 제공합니다. 프리셋을 선택하고 모델 경로를 지정하면 병렬성, 메모리, 커널 설정이 자동으로 처리됩니다.
배포 예시
$ docker run --device /dev/kfd --device /dev/dri \
--network host -v /models:/models \
moreh/moreh-vllm:latest \
serve.sh /models/DeepSeek-R1 \
presets/deepseek-ai-deepseek-r1-amd-mi300x-dp8-moe-ep8.yaml기술 원리
더 빠른 이유
Moreh vLLM은 AMD GPU 아키텍처에 맞춤 전용 엔진으로 컴퓨팅 백엔드를 대체합니다.
AMD GPU 전용 라이브러리
GEMM, 어텐션, MoE, 퓨즈드 연산 등 AMD GPU 아키텍처에 특화된 컴퓨팅 라이브러리.
모델 최적화
연산 퓨전, 그래프 수준 실행, 양자화 등의 기법으로 각 모델을 최대한 효율적으로 실행합니다.
멀티 GPU 스케일링
통신/컴퓨팅 오버랩, EP 로드 밸런싱 등 서버 내 GPU 간 확장을 위한 최적화.
지원 모델
주요 오픈소스 LLM에 최적화되어 있습니다:
지원 하드웨어
AMD Instinct MI355XAMD Instinct MI325XAMD Instinct MI308XAMD Instinct MI300XAMD Instinct MI250
독자 모델을 사용 중이신가요?
Moreh는 AMD GPU에서 비공개 및 파인튜닝 모델을 위한 주문형 vLLM 최적화를 제공합니다. 모델 아키텍처에 맞춤 맞춤형 Moreh vLLM을 구축하여 추가 작업 없이 동일한 성능 향상을 얻을 수 있습니다.
StepFun(MI308X에서 Step3 321B, NVIDIA H20 대비 1.30× 높은 디코드 처리량)과 한국 대형 통신사(MI300X에서 78억 파라미터 계열사 모델, NVIDIA H100 대비 1.38× 높은 서빙 용량)를 포함한 고객사에서 이를 실현했습니다.
문의하기 ›