Resources
블로그

크로스 벤더 Disaggregated Inference: NVIDIA H100과 AMD MI300X를 활용한 GPT-OSS 120B
MoAI Inference Framework는 H100을 prefill에, MI300X를 decode에 할당하는 크로스 벤더 disaggregation을 구현하여, 단일 벤더 클러스터 대비 최대 43% 낮은 지연 시간과 67% 높은 처리량을 달성합니다.

멀티 노드 Disaggregated Inference: AMD Instinct MI300X GPU에서의 DeepSeek R1 671B
Moreh의 Disaggregated Inference는 5노드 AMD MI300X 클러스터에서 DeepSeek R1 671B의 end-to-end 지연 시간을 최대 1.84배 개선하고, P99 inter-token 지연 시간을 12–51배 감소시킵니다.

Moreh, AMD MI300X의 잠재력을 실현: SGLang(InferenceMax) 대비 1.5배 빠른 DeepSeek R1 추론
Moreh의 최적화된 추론 엔진은 AMD MI300X에서 DeepSeek R1의 end-to-end 지연 시간과 GPU당 처리량을 InferenceMAX 기준 대비 1.47배 개선합니다.

TIDE: 자기 개선형 LLM 추론을 위한 Temporal Incremental Draft Engine
TIDE는 클러스터 내 유휴 GPU를 활용하여 백그라운드에서 경량 draft 모델을 학습함으로써 추론 속도를 지속적으로 개선합니다 — 추가 데이터 준비나 다운타임이 필요하지 않습니다.

HetCCL: 이기종 GPU를 활용한 LLM 학습 가속화
드라이버 수정 없이 NVIDIA와 AMD GPU 간의 RDMA 기반 집합 통신을 가능하게 하는 최초의 크로스 벤더 집합 통신 라이브러리 HetCCL을 소개합니다.

AMD Instinct MI308X에서의 Step3 추론 최적화: NVIDIA H20 대비 1.30배 높은 Decode 처리량
Moreh는 StepFun의 Step3 321B MoE 모델을 AMD Instinct MI308X GPU에 최적화하여, NVIDIA H20 대비 1.30배 높은 decode 처리량과 23% 낮은 decode 지연 시간을 달성했습니다.

다수의 구세대 GPU 노드에서의 Long-Context Prefill 최적화
SLOPE 엔진은 여러 GPU 서버에 context parallelism을 적용하여 long-context prefill 성능을 향상시킵니다. 구세대 GPU의 효율적 활용에도 도움이 됩니다.

통신사 LLM 추론 최적화: AMD MI300X에서 1.38배 높은 서빙 용량 달성
Moreh는 한국 통신사의 계열사 개발 7.8B LLM을 AMD MI300X에 최적화하여, NVIDIA H100 대비 1.38배 높은 SLO 준수 서빙 용량을 달성했습니다.

Moreh-Tenstorrent AI 데이터 센터 솔루션 시스템 아키텍처
Moreh는 Tenstorrent의 경량 및 확장 가능한 하드웨어와 자체 소프트웨어 스택을 결합하여 대규모 AI 데이터 센터를 위한 효율적이고 유연한 솔루션을 제공합니다.

Expert Parallelism을 활용한 AMD Instinct MI300X GPU에서의 초당 21K 출력 토큰 DeepSeek 추론
AMD의 소프트웨어 파트너인 Moreh는 ROCm 소프트웨어 스택에서 Expert Parallelism을 구현하여 8x AMD Instinct MI300X GPU 서버에서 21,000 tokens/sec 이상의 DeepSeek-R1 디코딩 처리량을 달성했습니다.

런타임 Draft Model 학습: Speculative Decoding을 실제 워크로드에 적용하기
TIDE는 런타임 draft model 학습을 통해 speculative decoding 성능을 자동으로 향상시키며, 한국어 대화 워크로드에서 정적 사전 학습 draft model 대비 1.14×~1.35×의 출력 토큰 처리량 속도 향상을 달성합니다.

GPU, Rubin CPX, AI Accelerator를 포함한 이기종 Accelerator에서의 분산 추론
분산 추론이 AI 데이터센터의 핵심 과제가 된 이유와, MoAI Inference Framework가 GPU, Rubin CPX, AI accelerator를 포함한 이기종 accelerator에서 자동화된 분산 추론을 어떻게 가능하게 하는지 알아봅니다.

Moreh vLLM 성능 평가: AMD Instinct MI300X GPU에서의 Llama 3.3 70B
Moreh vLLM은 Meta의 Llama 3.3 70B 모델에 대해 기존 vLLM 대비 1.68배 높은 output TPS, 2.02배 낮은 TTFT, 1.59배 낮은 TPOT를 달성합니다.

AMD Instinct MI300X GPU에서의 Moreh vLLM 성능 평가: DeepSeek V3/R1 671B
Moreh vLLM은 AMD MI300X GPU에서 DeepSeek V3/R1 671B 모델의 추론 성능을 최적화하여, 기존 vLLM 대비 평균 1.68배 높은 처리량과 최대 1.75배 낮은 지연 시간을 달성합니다.

DeepSeek V3 and R1 on MoAI: 1. Fine-Tuning on AMD GPU Clusters
MoAI provides a PyTorch-compatible environment that makes LLM fine-tuning on hundreds of AMD GPUs super easy, including DeepSeek 671B MoE.

Introducing Motif: A High-Performance Open-Source Korean LLM by Moreh
Moreh announces the release of Motif, a high-performance 102B Korean language model (LLM), which will be made available as an open-source model.

Fine-tuning Llama 3.1 405B on AMD GPUs
There are no barriers to fine-tune Llama 3.1 405B on the MoAI platform. The Moreh team has actually demonstrated fine-tuning on the model with 192 AMD GPUs.

GPU Virtualization in the MoAI Platform
The MoAI platform provides comprehensive GPU virtualization including fine-grained resource allocation, multi-GPU scaling, and heterogeneous GPU support.

Training 221B Parameter Korean LLM on 1,200 AMD MI250 GPU Cluster
Moreh trained a largest-ever Korean LLM with 221B parameters on top of the MoAI platform and an 1,200 AMD MI250 cluster system.

KT’s Success Stories in AI Cloud Service and Large AI Model Training on AMD Instinct MI250 and Moreh AI Platform
KT has collaborated with Moreh and AMD to overcome the challenges in public cloud services and in-house AI model development.