1.68×
vs ROCm vLLM
単一サーバーでDeepSeek R1
20,000+
ノードあたりtok/s
MI300XクラスターでDeepSeek R1
1.7×
クロスベンダーGPU活用
NVIDIA + AMD PD disaggregation
2.2×
40%少ないサーバーでスループット達成
プレフィックスキャッシュ対応ルーティング
フルスタック推論ソフトウェア
カーネルからクラスターまで
Morehはヘテロジニアスアクセラレータ全体にわたり、チップレベルのカーネルから分散サービングまで推論スタック全体をカバーします。
MoAI Inference Framework
ルーティング & スケジューリング · オートスケーリング · SLO駆動最適化 · KVキャッシュ
Moreh vLLM
SOTAモデル最適化 · 量子化 · グラフ実行
Native vLLM
Moreh Libraries
カスタムカーネル · GEMM/Attention/MoE · 通信
AMD Instinct GPU
Tenstorrentチップ
NVIDIA GPU
Why Moreh
Morehの推論ソフトウェアがAIインフラに価値を生み出す3つの方法。
非NVIDIAアクセラレータでの推論
カーネルからクラスターフレームワークまで、AMD GPUに最適化され、Tenstorrentチップでの推論を可能にするフルスタックソフトウェア。
ブログ
すべて見る ›
Moreh Unlocks AMD MI300X Potential: 1.5× Faster DeepSeek R1 Inference vs. SGLang (InferenceMax)
March 16, 2026
Moreh’s optimized inference engine achieves 1.47x improvement in end-to-end latency and throughput per GPU for DeepSeek R1 on AMD MI300X, compared to InferenceMAX baseline.

TIDE: Temporal Incremental Draft Engine for Self-Improving LLM Inference
February 5, 2026
TIDE continuously improves inference speed by training a lightweight draft model in the background, using idle GPUs in the cluster — no extra data preparation or downtime required.

Step3 Inference Optimization on AMD Instinct MI308X: 1.30× Higher Decode Throughput vs. NVIDIA H20
December 29, 2025
Moreh optimized StepFun’s Step3 321B MoE model for AMD Instinct MI308X GPUs, achieving 1.30× higher decode throughput and 23% lower decode latency compared to NVIDIA H20.
エコシステム & オープンソース
Morehはオープンソースエコシステムに貢献し、主要チップベンダーとパートナーシップを結んでいます。



















