Resources

ブログ

クロスベンダー Disaggregated 推論:NVIDIA H100 と AMD MI300X GPU による GPT-OSS-120B
Technical ReportMarch 18, 2026

クロスベンダー Disaggregated 推論:NVIDIA H100 と AMD MI300X GPU による GPT-OSS-120B

MoAI Inference Framework は H100 を prefill に、MI300X を decode に割り当てるクロスベンダー disaggregation を実現し、単一ベンダークラスター比でレイテンシを最大 43%削減、スループットを最大 67%向上させます。

マルチノード Disaggregated 推論:AMD Instinct MI300X GPU 上の DeepSeek R1 671B
Technical ReportMarch 17, 2026

マルチノード Disaggregated 推論:AMD Instinct MI300X GPU 上の DeepSeek R1 671B

MoAI Inference Framework を使用して、5ノード AMD Instinct MI300X クラスタ上で DeepSeek R1 671B の prefill-decode disaggregation をベンチマーク。最大 1.84倍のエンドツーエンドレイテンシ改善と 23.85倍の P99 inter-token latency 削減を達成。

Moreh が AMD MI300X の潜在能力を引き出す:DeepSeek R1 推論で SGLang (InferenceMAX) より 1.5 倍高速
BlogMarch 16, 2026

Moreh が AMD MI300X の潜在能力を引き出す:DeepSeek R1 推論で SGLang (InferenceMAX) より 1.5 倍高速

当社の最適化推論エンジンで InferenceMAX ベンチマークを実行し、同じ AMD MI300X ハードウェア上でエンドツーエンドレイテンシと GPU あたりスループットの両方で 1.47 倍の改善(幾何平均)を達成。ソフトウェア最適化が AMD GPU の潜在能力を最大限に引き出す鍵であることを実証しました。

TIDE: 自己改善型 LLM 推論のための Temporal Incremental Draft Engine
Technical ReportFebruary 5, 2026

TIDE: 自己改善型 LLM 推論のための Temporal Incremental Draft Engine

TIDE はクラスタ内の遊休 GPU を活用してバックグラウンドで軽量な draft モデルを学習することで、推論速度を継続的に改善します — 追加のデータ準備やダウンタイムは不要です。

HetCCL:異種GPUによるLLMトレーニングの高速化
Technical ReportJanuary 30, 2026

HetCCL:異種GPUによるLLMトレーニングの高速化

ドライバーの変更なしにNVIDIAとAMD GPU間のRDMAベースの集合通信を可能にする、初のクロスベンダー集合通信ライブラリHetCCLを紹介します。

Step3 推論最適化:AMD Instinct MI308X で NVIDIA H20 比 1.30 倍の Decode スループットを実現
Customer CaseDecember 29, 2025

Step3 推論最適化:AMD Instinct MI308X で NVIDIA H20 比 1.30 倍の Decode スループットを実現

Moreh vLLM は AMD Instinct MI308X 上で StepFun Step3(321B MoE)向けに最適化を実施し、カスタム HIP attention kernel、CUDA graph、混合精度量子化により decode スループット 4,082 tok/s を達成。NVIDIA H20 比 1.30 倍の性能向上。

複数の旧世代GPUノードにおける長文コンテキストPrefillの最適化
BlogDecember 26, 2025

複数の旧世代GPUノードにおける長文コンテキストPrefillの最適化

SLOPEは、マルチノードGPUクラスター上でcontext parallelism技術(Ulysses + Ring Attention)を適用し、長いコンテキスト入力のSLO駆動型最適化を実現する専用prefillエンジンです。

通信事業者 LLM 推論最適化:AMD MI300X でサービング容量 1.38 倍を達成
Customer CaseNovember 25, 2025

通信事業者 LLM 推論最適化:AMD MI300X でサービング容量 1.38 倍を達成

Moreh は韓国の通信事業者のグループ会社が開発した 7.8B LLM を AMD MI300X 向けに最適化し、NVIDIA H100 比 1.38 倍の SLO 準拠サービング容量を達成しました。

Moreh-Tenstorrent AIデータセンターソリューション システムアーキテクチャ
Technical ReportNovember 18, 2025

Moreh-Tenstorrent AIデータセンターソリューション システムアーキテクチャ

MorehはTenstorrentの軽量かつスケーラブルなハードウェアと独自のソフトウェアスタックを組み合わせ、大規模AIデータセンター向けの効率的で柔軟なソリューションを提供します。

Expert Parallelismを活用したAMD Instinct MI300X GPUでの毎秒21K出力トークンのDeepSeek推論
Technical ReportNovember 13, 2025

Expert Parallelismを活用したAMD Instinct MI300X GPUでの毎秒21K出力トークンのDeepSeek推論

AMDのソフトウェアパートナーであるMorehは、ROCmソフトウェアスタック上でExpert Parallelismを実装し、8x AMD Instinct MI300X GPUサーバーで21,000 tokens/sec以上のDeepSeek-R1デコーディングスループットを達成しました。

ランタイム Draft Model 学習:Speculative Decoding を実環境ワークロードに適応させる
BlogNovember 10, 2025

ランタイム Draft Model 学習:Speculative Decoding を実環境ワークロードに適応させる

TIDE はランタイム draft model 学習により speculative decoding のパフォーマンスを自動的に向上させ、韓国語会話ワークロードにおいて静的な事前学習済み draft model と比較して 1.14× から 1.35× の出力トークンスループット向上を達成します。

GPU、Rubin CPX、AIアクセラレータを含む異種Acceleratorにおける分散推論
BlogSeptember 23, 2025

GPU、Rubin CPX、AIアクセラレータを含む異種Acceleratorにおける分散推論

分散推論がAIデータセンターの中核的課題となった理由と、MoAI Inference FrameworkがGPU、Rubin CPX、AIアクセラレータを含む異種acceleratorで自動化された分散推論をどのように実現するかをご紹介します。

Moreh vLLM 性能評価:AMD Instinct MI300X GPU における Llama 3.3 70B
Technical ReportAugust 30, 2025

Moreh vLLM 性能評価:AMD Instinct MI300X GPU における Llama 3.3 70B

Moreh vLLM は Meta の Llama 3.3 70B モデルにおいて、オリジナルの vLLM と比較して 1.68 倍の output TPS、2.02 倍低い TTFT、1.59 倍低い TPOT を達成します。

AMD Instinct MI300X GPUにおけるMoreh vLLM性能評価:DeepSeek V3/R1 671B
Technical ReportAugust 29, 2025

AMD Instinct MI300X GPUにおけるMoreh vLLM性能評価:DeepSeek V3/R1 671B

Moreh vLLMはAMD MI300X GPU上でDeepSeek V3/R1 671Bモデルの推論性能を最適化し、オリジナルのvLLMと比較して平均1.68倍のスループット向上と最大1.75倍のレイテンシ短縮を達成します。

DeepSeek V3 and R1 on MoAI: 1. Fine-Tuning on AMD GPU Clusters
BlogFebruary 20, 2025

DeepSeek V3 and R1 on MoAI: 1. Fine-Tuning on AMD GPU Clusters

MoAI provides a PyTorch-compatible environment that makes LLM fine-tuning on hundreds of AMD GPUs super easy, including DeepSeek 671B MoE.

Introducing Motif: A High-Performance Open-Source Korean LLM by Moreh
BlogDecember 2, 2024

Introducing Motif: A High-Performance Open-Source Korean LLM by Moreh

Moreh announces the release of Motif, a high-performance 102B Korean language model (LLM), which will be made available as an open-source model.

Fine-tuning Llama 3.1 405B on AMD GPUs
BlogSeptember 3, 2024

Fine-tuning Llama 3.1 405B on AMD GPUs

There are no barriers to fine-tune Llama 3.1 405B on the MoAI platform. The Moreh team has actually demonstrated fine-tuning on the model with 192 AMD GPUs.

GPU Virtualization in the MoAI Platform
BlogAugust 19, 2024

GPU Virtualization in the MoAI Platform

The MoAI platform provides comprehensive GPU virtualization including fine-grained resource allocation, multi-GPU scaling, and heterogeneous GPU support.

Training 221B Parameter Korean LLM on 1,200 AMD MI250 GPU Cluster
BlogAugust 14, 2023

Training 221B Parameter Korean LLM on 1,200 AMD MI250 GPU Cluster

Moreh trained a largest-ever Korean LLM with 221B parameters on top of the MoAI platform and an 1,200 AMD MI250 cluster system.

KT’s Success Stories in AI Cloud Service and Large AI Model Training on AMD Instinct MI250 and Moreh AI Platform
BlogNovember 11, 2022

KT’s Success Stories in AI Cloud Service and Large AI Model Training on AMD Instinct MI250 and Moreh AI Platform

KT has collaborated with Moreh and AMD to overcome the challenges in public cloud services and in-house AI model development.