あらゆるアクセラレータで最適なLLM推論

カスタムカーネルから分散サービングまで、AMD GPU、Tenstorrentチップ、ヘテロジニアスクラスターで最高の推論性能を引き出すフルスタックソフトウェアを開発しています。

1.68×

vs ROCm vLLM

単一サーバーでDeepSeek R1

20,000+

ノードあたりtok/s

MI300XクラスターでDeepSeek R1

1.7×

クロスベンダーGPU活用

NVIDIA + AMD PD disaggregation

2.2×

40%少ないサーバーでスループット達成

プレフィックスキャッシュ対応ルーティング

フルスタック推論ソフトウェア

カーネルからクラスターまで

Morehはヘテロジニアスアクセラレータ全体にわたり、チップレベルのカーネルから分散サービングまで推論スタック全体をカバーします。

MoAI Inference Framework

ルーティング & スケジューリング · オートスケーリング · SLO駆動最適化 · KVキャッシュ

Moreh vLLM

SOTAモデル最適化 · 量子化 · グラフ実行

Native vLLM

Moreh Libraries

カスタムカーネル · GEMM/Attention/MoE · 通信

AMD Instinct GPU

Tenstorrentチップ

NVIDIA GPU

Why Moreh

Morehの推論ソフトウェアがAIインフラに価値を生み出す3つの方法。

非NVIDIAアクセラレータでの推論

カーネルからクラスターフレームワークまで、AMD GPUに最適化され、Tenstorrentチップでの推論を可能にするフルスタックソフトウェア。

ヘテロジニアスGPU推論

ベンダー、アーキテクチャ、世代の異なるGPUを単一の推論クラスターに統合し、データセンター内のすべてのチップの効率を最大化します。

推論コスト最適化

チップレベルの最適化、通信最適化、マルチベンダーインフラ活用により、ドルあたりのトークン数を最大化します。

エコシステム & オープンソース

Morehはオープンソースエコシステムに貢献し、主要チップベンダーとパートナーシップを結んでいます。

AMD ROCm
llm-d
Tenstorrent Metalium
SGLang
SkyPilot
AMD ROCm
llm-d
Tenstorrent Metalium
SGLang
SkyPilot
AMD ROCm
llm-d
Tenstorrent Metalium
SGLang
SkyPilot
AMD ROCm
llm-d
Tenstorrent Metalium
SGLang
SkyPilot