Solution
最大化每美元的Token产出
LLM推理成本在AI运营预算中占据主导地位——随着模型规模扩大和Agent工作负载多样化,这一成本还在持续增长。Moreh在每个层级进行优化,提供最高的每美元token产出。
降低成本的三大杠杆
三大杠杆以乘数效应叠加——芯片优化 × 集群效率 × 基础设施成本节省。
1
芯片级优化 — Moreh vLLM
在DeepSeek R1 671B上比ROCm vLLM吞吐量高1.68倍。定制运算、精度优化和算子融合从每块GPU中提取最大的每秒token数。
Custom GEMM/Attention/MoEOperation fusionQuantizationComm/compute overlapEP load balancing
2
集群级优化 — MoAI Inference Framework
通过前缀缓存感知路由,在减少40%服务器的情况下实现2.2倍吞吐量。Prefill-Decode分离、智能路由、自动扩缩和SLO驱动优化,最大化整个集群的利用率。
PD disaggregationPrefix cache-aware routingSLO-driven optimization
3
基础设施成本 — 异构GPU利用
通过跨厂商Prefill-Decode分离,结合NVIDIA和AMD GPU实现1.7倍吞吐量。使用高性价比的AMD GPU、Tenstorrent加速器或现有老一代硬件——让每块GPU都为集群吞吐量做贡献。
Cross-vendor PD disaggregationModel-aware GPU placementLength-based routing