1.68×
vs ROCm vLLM
单服务器上的DeepSeek R1
20,000+
每节点tok/s
MI300X集群上的DeepSeek R1
1.7×
跨厂商GPU协同
NVIDIA + AMD PD分离
2.2×
减少40%服务器的吞吐量提升
前缀缓存感知路由
全栈推理软件
从内核到集群
Moreh覆盖异构加速器上的整个推理栈——从芯片级内核到分布式服务。
MoAI Inference Framework
路由与调度 · 自动扩缩 · SLO驱动优化 · KV缓存
Moreh vLLM
SOTA模型优化 · 量化 · 图执行
Native vLLM
Moreh Libraries
定制内核 · GEMM/Attention/MoE · 通信
AMD Instinct GPU
Tenstorrent芯片
NVIDIA GPU
Why Moreh
Moreh推理软件为您的AI基础设施创造价值的三种方式。
博客文章
查看全部 ›
跨供应商 Disaggregated 推理:在 NVIDIA H100 和 AMD MI300X GPU 上运行 GPT-OSS-120B
March 18, 2026
MoAI Inference Framework 实现跨供应商 disaggregation,将 H100 用于 prefill、MI300X 用于 decode,与单一供应商集群相比延迟降低最多 43%,吞吐量提升最多 67%。

多节点 Disaggregated 推理:在 AMD Instinct MI300X GPU 上运行 DeepSeek R1 671B
March 17, 2026
在 5 节点 AMD Instinct MI300X 集群上使用 MoAI Inference Framework 对 DeepSeek R1 671B 进行 prefill-decode disaggregation 基准测试,实现最高 1.84 倍端到端延迟改善和 23.85 倍 P99 inter-token latency 降低。

Moreh 释放 AMD MI300X 潜力:DeepSeek R1 推理速度比 SGLang (InferenceMAX) 快 1.5 倍
March 16, 2026
我们使用自研优化推理引擎运行 InferenceMAX 基准测试,在相同的 AMD MI300X 硬件上实现了端到端延迟和每 GPU 吞吐量 1.47 倍的提升(几何平均值),证明软件优化是释放 AMD GPU 全部潜力的关键。
生态系统与开源
我们为开源生态系统做贡献,并与领先的芯片厂商合作。



















