Solution

ドルあたりのトークンを最大化

LLM推論コストはAI運用予算の大部分を占め、モデル規模の拡大とエージェントワークロードの多様化に伴い増加し続けています。Morehはあらゆるレベルで最適化し、ドルあたり最大のトークンを提供します。

コスト削減のための3つのレバー

3つのレバーは乗算的に作用します — チップ最適化 × クラスター効率 × インフラコスト削減。

1

チップレベル最適化 — Moreh vLLM

DeepSeek R1 671BでROCm vLLM比1.68倍のスループット。カスタム演算、精度最適化、オペレータフュージョンにより、すべてのGPUから毎秒最大のトークンを抽出します。

Custom GEMM/Attention/MoEOperation fusionQuantizationComm/compute overlapEP load balancing
2

クラスターレベル最適化 — MoAI Inference Framework

プレフィックスキャッシュ対応ルーティングにより40%少ないサーバーで2.2倍のスループット。Prefill-Decodeディスアグリゲーション、スマートルーティング、オートスケーリング、SLO駆動最適化でクラスター全体の稼働率を最大化します。

PD disaggregationPrefix cache-aware routingSLO-driven optimization
3

インフラコスト — ヘテロジニアスGPU活用

クロスベンダーPrefill-Decodeディスアグリゲーションで、NVIDIAとAMD GPUを組み合わせて1.7倍のスループット。コスト効率の高いAMD GPU、Tenstorrentアクセラレータ、既存の旧世代ハードウェアを活用し、すべてのGPUがクラスターのスループットに貢献します。

Cross-vendor PD disaggregationModel-aware GPU placementLength-based routing

お客様のワークロードでの数値をご確認ください

モデル、トラフィックパターン、ハードウェアをお知らせいただければ、カスタムベンチマークを実行してコスト削減効果をお見せします。