Solution
ドルあたりのトークンを最大化
LLM推論コストはAI運用予算の大部分を占め、モデル規模の拡大とエージェントワークロードの多様化に伴い増加し続けています。Morehはあらゆるレベルで最適化し、ドルあたり最大のトークンを提供します。
コスト削減のための3つのレバー
3つのレバーは乗算的に作用します — チップ最適化 × クラスター効率 × インフラコスト削減。
1
チップレベル最適化 — Moreh vLLM
DeepSeek R1 671BでROCm vLLM比1.68倍のスループット。カスタム演算、精度最適化、オペレータフュージョンにより、すべてのGPUから毎秒最大のトークンを抽出します。
Custom GEMM/Attention/MoEOperation fusionQuantizationComm/compute overlapEP load balancing
2
クラスターレベル最適化 — MoAI Inference Framework
プレフィックスキャッシュ対応ルーティングにより40%少ないサーバーで2.2倍のスループット。Prefill-Decodeディスアグリゲーション、スマートルーティング、オートスケーリング、SLO駆動最適化でクラスター全体の稼働率を最大化します。
PD disaggregationPrefix cache-aware routingSLO-driven optimization
3
インフラコスト — ヘテロジニアスGPU活用
クロスベンダーPrefill-Decodeディスアグリゲーションで、NVIDIAとAMD GPUを組み合わせて1.7倍のスループット。コスト効率の高いAMD GPU、Tenstorrentアクセラレータ、既存の旧世代ハードウェアを活用し、すべてのGPUがクラスターのスループットに貢献します。
Cross-vendor PD disaggregationModel-aware GPU placementLength-based routing