1.68×
vs ROCm vLLM
単一サーバーでDeepSeek R1
20,000+
ノードあたりtok/s
MI300XクラスターでDeepSeek R1
1.7×
クロスベンダーGPU活用
NVIDIA + AMD PD disaggregation
2.2×
40%少ないサーバーでスループット達成
プレフィックスキャッシュ対応ルーティング
フルスタック推論ソフトウェア
カーネルからクラスターまで
Morehはヘテロジニアスアクセラレータ全体にわたり、チップレベルのカーネルから分散サービングまで推論スタック全体をカバーします。
MoAI Inference Framework
ルーティング & スケジューリング · オートスケーリング · SLO駆動最適化 · KVキャッシュ
Moreh vLLM
SOTAモデル最適化 · 量子化 · グラフ実行
Native vLLM
Moreh Libraries
カスタムカーネル · GEMM/Attention/MoE · 通信
AMD Instinct GPU
Tenstorrentチップ
NVIDIA GPU
Why Moreh
Morehの推論ソフトウェアがAIインフラに価値を生み出す3つの方法。
非NVIDIAアクセラレータでの推論
カーネルからクラスターフレームワークまで、AMD GPUに最適化され、Tenstorrentチップでの推論を可能にするフルスタックソフトウェア。
ブログ
すべて見る ›
クロスベンダー Disaggregated 推論:NVIDIA H100 と AMD MI300X GPU による GPT-OSS-120B
March 18, 2026
MoAI Inference Framework は H100 を prefill に、MI300X を decode に割り当てるクロスベンダー disaggregation を実現し、単一ベンダークラスター比でレイテンシを最大 43%削減、スループットを最大 67%向上させます。

マルチノード Disaggregated 推論:AMD Instinct MI300X GPU 上の DeepSeek R1 671B
March 17, 2026
MoAI Inference Framework を使用して、5ノード AMD Instinct MI300X クラスタ上で DeepSeek R1 671B の prefill-decode disaggregation をベンチマーク。最大 1.84倍のエンドツーエンドレイテンシ改善と 23.85倍の P99 inter-token latency 削減を達成。

Moreh が AMD MI300X の潜在能力を引き出す:DeepSeek R1 推論で SGLang (InferenceMAX) より 1.5 倍高速
March 16, 2026
当社の最適化推論エンジンで InferenceMAX ベンチマークを実行し、同じ AMD MI300X ハードウェア上でエンドツーエンドレイテンシと GPU あたりスループットの両方で 1.47 倍の改善(幾何平均)を達成。ソフトウェア最適化が AMD GPU の潜在能力を最大限に引き出す鍵であることを実証しました。
エコシステム & オープンソース
Morehはオープンソースエコシステムに貢献し、主要チップベンダーとパートナーシップを結んでいます。



















