Resources

Blog

Suy luận Disaggregated đa nhà cung cấp: GPT-OSS-120B trên GPU NVIDIA H100 và AMD MI300X
Technical ReportMarch 18, 2026

Suy luận Disaggregated đa nhà cung cấp: GPT-OSS-120B trên GPU NVIDIA H100 và AMD MI300X

MoAI Inference Framework cho phép disaggregation đa nhà cung cấp với H100 cho prefill và MI300X cho decode, giảm độ trễ tới 43% và tăng thông lượng tới 67% so với cụm đơn nhà cung cấp.

Suy luận Disaggregated đa node: DeepSeek R1 671B trên GPU AMD Instinct MI300X
Technical ReportMarch 17, 2026

Suy luận Disaggregated đa node: DeepSeek R1 671B trên GPU AMD Instinct MI300X

Đánh giá hiệu năng prefill-decode disaggregation cho DeepSeek R1 671B trên cụm 5 node AMD Instinct MI300X sử dụng MoAI Inference Framework, đạt cải thiện độ trễ đầu-cuối lên tới 1.84 lần và giảm P99 inter-token latency 23.85 lần.

Moreh khai phá tiềm năng AMD MI300X: Suy luận DeepSeek R1 nhanh hơn 1,5 lần so với SGLang (InferenceMAX)
BlogMarch 16, 2026

Moreh khai phá tiềm năng AMD MI300X: Suy luận DeepSeek R1 nhanh hơn 1,5 lần so với SGLang (InferenceMAX)

Chúng tôi đã chạy benchmark InferenceMAX bằng engine suy luận tối ưu hóa của riêng mình và đạt được cải thiện 1,47 lần về độ trễ end-to-end và thông lượng trên mỗi GPU (trung bình hình học) trên cùng phần cứng AMD MI300X, chứng minh tối ưu hóa phần mềm là chìa khóa khai phá toàn bộ tiềm năng GPU AMD.

TIDE: Temporal Incremental Draft Engine cho suy luận LLM tự cải thiện
Technical ReportFebruary 5, 2026

TIDE: Temporal Incremental Draft Engine cho suy luận LLM tự cải thiện

TIDE liên tục cải thiện tốc độ suy luận bằng cách huấn luyện draft model nhẹ trong nền, sử dụng các GPU nhàn rỗi trong cụm máy — không cần chuẩn bị dữ liệu bổ sung hay thời gian ngừng hoạt động.

HetCCL: Tăng tốc huấn luyện LLM với GPU không đồng nhất
Technical ReportJanuary 30, 2026

HetCCL: Tăng tốc huấn luyện LLM với GPU không đồng nhất

Giới thiệu HetCCL, thư viện giao tiếp tập thể xuyên nhà cung cấp đầu tiên cho phép giao tiếp tập thể dựa trên RDMA giữa GPU NVIDIA và AMD mà không cần sửa đổi driver.

Tối ưu hóa suy luận Step3: Decode throughput trên AMD Instinct MI308X cao hơn 1,30 lần so với NVIDIA H20
Customer CaseDecember 29, 2025

Tối ưu hóa suy luận Step3: Decode throughput trên AMD Instinct MI308X cao hơn 1,30 lần so với NVIDIA H20

Moreh vLLM được tối ưu hóa cho StepFun Step3 (321B MoE) trên AMD Instinct MI308X với kernel HIP attention tùy chỉnh, CUDA graph và lượng tử hóa hỗn hợp, đạt decode throughput 4.082 tok/s — cao hơn 1,30 lần so với NVIDIA H20.

Tối ưu hóa Prefill ngữ cảnh dài trên nhiều nút GPU thế hệ cũ
BlogDecember 26, 2025

Tối ưu hóa Prefill ngữ cảnh dài trên nhiều nút GPU thế hệ cũ

SLOPE là một prefill engine chuyên dụng áp dụng các kỹ thuật context parallelism (Ulysses + Ring Attention) trên các cụm GPU đa nút để tối ưu hóa hướng SLO cho các đầu vào ngữ cảnh dài.

Tối ưu hóa suy luận LLM cho nhà mạng: Dung lượng phục vụ trên AMD MI300X cao hơn 1,38 lần
Customer CaseNovember 25, 2025

Tối ưu hóa suy luận LLM cho nhà mạng: Dung lượng phục vụ trên AMD MI300X cao hơn 1,38 lần

Moreh đã tối ưu hóa mô hình LLM 7.8B do công ty liên kết của một nhà mạng Hàn Quốc phát triển trên AMD MI300X, đạt dung lượng phục vụ tuân thủ SLO cao hơn 1,38 lần so với NVIDIA H100.

Kiến trúc hệ thống giải pháp trung tâm dữ liệu AI Moreh-Tenstorrent
Technical ReportNovember 18, 2025

Kiến trúc hệ thống giải pháp trung tâm dữ liệu AI Moreh-Tenstorrent

Moreh kết hợp phần cứng nhẹ và có khả năng mở rộng của Tenstorrent với bộ phần mềm độc quyền của chúng tôi để cung cấp giải pháp hiệu quả và linh hoạt cho các trung tâm dữ liệu AI quy mô lớn.

Suy luận DeepSeek 21K output token mỗi giây trên GPU AMD Instinct MI300X với Expert Parallelism
Technical ReportNovember 13, 2025

Suy luận DeepSeek 21K output token mỗi giây trên GPU AMD Instinct MI300X với Expert Parallelism

Moreh, đối tác phần mềm của AMD, đã triển khai Expert Parallelism trên ngăn xếp phần mềm ROCm để đạt thông lượng giải mã DeepSeek-R1 hơn 21,000 tokens/sec trên máy chủ trang bị 8x AMD Instinct MI300X GPU.

Huấn luyện Draft Model trong thời gian chạy: Điều chỉnh Speculative Decoding cho workload thực tế
BlogNovember 10, 2025

Huấn luyện Draft Model trong thời gian chạy: Điều chỉnh Speculative Decoding cho workload thực tế

TIDE tự động cải thiện hiệu suất speculative decoding thông qua huấn luyện draft model trong thời gian chạy, đạt được tốc độ thông lượng token đầu ra tăng từ 1.14× đến 1.35× so với draft model huấn luyện trước tĩnh trên workload hội thoại tiếng Hàn.

Suy luận phân tán trên các Accelerator không đồng nhất bao gồm GPU, Rubin CPX và AI Accelerator
BlogSeptember 23, 2025

Suy luận phân tán trên các Accelerator không đồng nhất bao gồm GPU, Rubin CPX và AI Accelerator

Tìm hiểu tại sao suy luận phân tán đã trở thành thách thức cốt lõi của trung tâm dữ liệu AI, và cách MoAI Inference Framework cho phép suy luận phân tán tự động trên các accelerator không đồng nhất bao gồm GPU, Rubin CPX và AI accelerator.

Đánh giá hiệu suất Moreh vLLM: Llama 3.3 70B trên AMD Instinct MI300X GPU
Technical ReportAugust 30, 2025

Đánh giá hiệu suất Moreh vLLM: Llama 3.3 70B trên AMD Instinct MI300X GPU

Moreh vLLM đạt output TPS cao hơn 1,68 lần, TTFT thấp hơn 2,02 lần và TPOT thấp hơn 1,59 lần so với vLLM gốc cho mô hình Llama 3.3 70B của Meta.

Đánh giá hiệu năng Moreh vLLM trên AMD Instinct MI300X GPU: DeepSeek V3/R1 671B
Technical ReportAugust 29, 2025

Đánh giá hiệu năng Moreh vLLM trên AMD Instinct MI300X GPU: DeepSeek V3/R1 671B

Moreh vLLM tối ưu hóa hiệu năng suy luận mô hình DeepSeek V3/R1 671B trên AMD MI300X GPU, đạt thông lượng cao hơn trung bình 1,68 lần và độ trễ thấp hơn tới 1,75 lần so với vLLM gốc.

DeepSeek V3 and R1 on MoAI: 1. Fine-Tuning on AMD GPU Clusters
BlogFebruary 20, 2025

DeepSeek V3 and R1 on MoAI: 1. Fine-Tuning on AMD GPU Clusters

MoAI provides a PyTorch-compatible environment that makes LLM fine-tuning on hundreds of AMD GPUs super easy, including DeepSeek 671B MoE.

Introducing Motif: A High-Performance Open-Source Korean LLM by Moreh
BlogDecember 2, 2024

Introducing Motif: A High-Performance Open-Source Korean LLM by Moreh

Moreh announces the release of Motif, a high-performance 102B Korean language model (LLM), which will be made available as an open-source model.

Fine-tuning Llama 3.1 405B on AMD GPUs
BlogSeptember 3, 2024

Fine-tuning Llama 3.1 405B on AMD GPUs

There are no barriers to fine-tune Llama 3.1 405B on the MoAI platform. The Moreh team has actually demonstrated fine-tuning on the model with 192 AMD GPUs.

GPU Virtualization in the MoAI Platform
BlogAugust 19, 2024

GPU Virtualization in the MoAI Platform

The MoAI platform provides comprehensive GPU virtualization including fine-grained resource allocation, multi-GPU scaling, and heterogeneous GPU support.

Training 221B Parameter Korean LLM on 1,200 AMD MI250 GPU Cluster
BlogAugust 14, 2023

Training 221B Parameter Korean LLM on 1,200 AMD MI250 GPU Cluster

Moreh trained a largest-ever Korean LLM with 221B parameters on top of the MoAI platform and an 1,200 AMD MI250 cluster system.

KT’s Success Stories in AI Cloud Service and Large AI Model Training on AMD Instinct MI250 and Moreh AI Platform
BlogNovember 11, 2022

KT’s Success Stories in AI Cloud Service and Large AI Model Training on AMD Instinct MI250 and Moreh AI Platform

KT has collaborated with Moreh and AMD to overcome the challenges in public cloud services and in-house AI model development.