あらゆるアクセラレータ上で最適なLLM推論を実現します。

カスタムカーネルから分散サービングまで、AMD GPU、Tenstorrentチップ、そして異種混在クラスタ上で推論性能を最大限に引き出すフルスタックソフトウェアを構築します。

デモを依頼ベンチマークを見る

1.68×

vs ROCm vLLM

単一サーバーでDeepSeek R1

20,000+

ノードあたりtok/s

MI300XクラスターでDeepSeek R1

1.7×

クロスベンダーGPU活用

NVIDIA + AMD PD disaggregation

2.2×

40%少ないサーバーでスループット達成

プレフィックスキャッシュ対応ルーティング

フルスタック推論ソフトウェア

カーネルからクラスターまで

Morehはヘテロジニアスアクセラレータ全体にわたり、チップレベルのカーネルから分散サービングまで推論スタック全体をカバーします。

MoAI Inference Framework

ルーティング & スケジューリング · オートスケーリング · SLO駆動最適化 · KVキャッシュ

Moreh vLLM

SOTAモデル最適化 · 量子化 · グラフ実行

Native vLLM

Moreh Libraries

カスタムカーネル · GEMM/Attention/MoE · 通信

AMD Instinct GPU

Tenstorrentチップ

NVIDIA GPU

Why Moreh

Morehの推論ソフトウェアがAIインフラに価値を生み出す3つの方法。

非NVIDIAアクセラレータでの推論

カーネルからクラスターフレームワークまで、AMD GPUに最適化され、Tenstorrentチップでの推論を可能にするフルスタックソフトウェア。

AMD GPU ›Tenstorrent ›

ヘテロジニアスGPU推論

ベンダー、アーキテクチャ、世代の異なるGPUを単一の推論クラスターに統合し、データセンター内のすべてのチップの効率を最大化します。

詳しく見る ›

推論コスト最適化

チップレベルの最適化、通信最適化、マルチベンダーインフラ活用により、ドルあたりのトークン数を最大化します。

詳しく見る ›

ブログ

すべて見る ›

クロスベンダー Disaggregated 推論：NVIDIA H100 と AMD MI300X GPU による GPT-OSS-120B

March 18, 2026

MoAI Inference Framework は H100 を prefill に、MI300X を decode に割り当てるクロスベンダー disaggregation を実現し、単一ベンダークラスター比でレイテンシを最大 43%削減、スループットを最大 67%向上させます。

マルチノード Disaggregated 推論：AMD Instinct MI300X GPU 上の DeepSeek R1 671B

March 17, 2026

MoAI Inference Framework を使用して、5ノード AMD Instinct MI300X クラスタ上で DeepSeek R1 671B の prefill-decode disaggregation をベンチマーク。最大 1.84倍のエンドツーエンドレイテンシ改善と 23.85倍の P99 inter-token latency 削減を達成。

Moreh が AMD MI300X の潜在能力を引き出す：DeepSeek R1 推論で SGLang (InferenceMAX) より 1.5 倍高速

March 16, 2026

当社の最適化推論エンジンで InferenceMAX ベンチマークを実行し、同じ AMD MI300X ハードウェア上でエンドツーエンドレイテンシと GPU あたりスループットの両方で 1.47 倍の改善（幾何平均）を達成。ソフトウェア最適化が AMD GPU の潜在能力を最大限に引き出す鍵であることを実証しました。

エコシステム & オープンソース

Morehはオープンソースエコシステムに貢献し、主要チップベンダーとパートナーシップを結んでいます。