在每种加速器上实现最优LLM推理

从定制内核到分布式服务，我们构建全栈软件，释放AMD GPU、Tenstorrent芯片和异构集群上的极致推理性能。

申请演示查看基准测试

1.68×

vs ROCm vLLM

单服务器上的DeepSeek R1

20,000+

每节点tok/s

MI300X集群上的DeepSeek R1

1.7×

跨厂商GPU协同

NVIDIA + AMD PD分离

2.2×

减少40%服务器的吞吐量提升

前缀缓存感知路由

全栈推理软件

从内核到集群

Moreh覆盖异构加速器上的整个推理栈——从芯片级内核到分布式服务。

MoAI Inference Framework

路由与调度 · 自动扩缩 · SLO驱动优化 · KV缓存

Moreh vLLM

SOTA模型优化 · 量化 · 图执行

Native vLLM

Moreh Libraries

定制内核 · GEMM/Attention/MoE · 通信

AMD Instinct GPU

Tenstorrent芯片

NVIDIA GPU

Why Moreh

Moreh推理软件为您的AI基础设施创造价值的三种方式。

非NVIDIA加速器上的推理

从内核到集群级框架的全栈软件，针对AMD GPU优化，并支持在Tenstorrent芯片上进行推理。

AMD GPU ›Tenstorrent ›

异构GPU推理

将不同厂商、架构和代次的GPU统一为单一推理集群——最大化数据中心中每块芯片的效率。

了解更多 ›

推理成本优化

通过芯片级优化、通信优化和多厂商基础设施利用，最大化每美元的token产出。

了解更多 ›

博客文章

查看全部 ›

跨供应商 Disaggregated 推理：在 NVIDIA H100 和 AMD MI300X GPU 上运行 GPT-OSS-120B

March 18, 2026

MoAI Inference Framework 实现跨供应商 disaggregation，将 H100 用于 prefill、MI300X 用于 decode，与单一供应商集群相比延迟降低最多 43%，吞吐量提升最多 67%。

多节点 Disaggregated 推理：在 AMD Instinct MI300X GPU 上运行 DeepSeek R1 671B

March 17, 2026

在 5 节点 AMD Instinct MI300X 集群上使用 MoAI Inference Framework 对 DeepSeek R1 671B 进行 prefill-decode disaggregation 基准测试，实现最高 1.84 倍端到端延迟改善和 23.85 倍 P99 inter-token latency 降低。

Moreh 释放 AMD MI300X 潜力：DeepSeek R1 推理速度比 SGLang (InferenceMAX) 快 1.5 倍

March 16, 2026

我们使用自研优化推理引擎运行 InferenceMAX 基准测试，在相同的 AMD MI300X 硬件上实现了端到端延迟和每 GPU 吞吐量 1.47 倍的提升（几何平均值），证明软件优化是释放 AMD GPU 全部潜力的关键。

生态系统与开源

我们为开源生态系统做贡献，并与领先的芯片厂商合作。