Solution

最大化每美元的Token产出

LLM推理成本在AI运营预算中占据主导地位——随着模型规模扩大和Agent工作负载多样化,这一成本还在持续增长。Moreh在每个层级进行优化,提供最高的每美元token产出。

降低成本的三大杠杆

三大杠杆以乘数效应叠加——芯片优化 × 集群效率 × 基础设施成本节省。

1

芯片级优化 — Moreh vLLM

在DeepSeek R1 671B上比ROCm vLLM吞吐量高1.68倍。定制运算、精度优化和算子融合从每块GPU中提取最大的每秒token数。

Custom GEMM/Attention/MoEOperation fusionQuantizationComm/compute overlapEP load balancing
2

集群级优化 — MoAI Inference Framework

通过前缀缓存感知路由,在减少40%服务器的情况下实现2.2倍吞吐量。Prefill-Decode分离、智能路由、自动扩缩和SLO驱动优化,最大化整个集群的利用率。

PD disaggregationPrefix cache-aware routingSLO-driven optimization
3

基础设施成本 — 异构GPU利用

通过跨厂商Prefill-Decode分离,结合NVIDIA和AMD GPU实现1.7倍吞吐量。使用高性价比的AMD GPU、Tenstorrent加速器或现有老一代硬件——让每块GPU都为集群吞吐量做贡献。

Cross-vendor PD disaggregationModel-aware GPU placementLength-based routing

查看您工作负载的实际数据

分享您的模型、流量模式和硬件——我们将为您运行定制基准测试并展示成本节省效果。