在每种加速器上实现最优LLM推理

从定制内核到分布式服务,我们构建全栈软件,释放AMD GPU、Tenstorrent芯片和异构集群上的极致推理性能。

1.68×

vs ROCm vLLM

单服务器上的DeepSeek R1

20,000+

每节点tok/s

MI300X集群上的DeepSeek R1

1.7×

跨厂商GPU协同

NVIDIA + AMD PD分离

2.2×

减少40%服务器的吞吐量提升

前缀缓存感知路由

全栈推理软件

从内核到集群

Moreh覆盖异构加速器上的整个推理栈——从芯片级内核到分布式服务。

MoAI Inference Framework

路由与调度 · 自动扩缩 · SLO驱动优化 · KV缓存

Moreh vLLM

SOTA模型优化 · 量化 · 图执行

Native vLLM

Moreh Libraries

定制内核 · GEMM/Attention/MoE · 通信

AMD Instinct GPU

Tenstorrent芯片

NVIDIA GPU

Why Moreh

Moreh推理软件为您的AI基础设施创造价值的三种方式。

非NVIDIA加速器上的推理

从内核到集群级框架的全栈软件,针对AMD GPU优化,并支持在Tenstorrent芯片上进行推理。

异构GPU推理

将不同厂商、架构和代次的GPU统一为单一推理集群——最大化数据中心中每块芯片的效率。

推理成本优化

通过芯片级优化、通信优化和多厂商基础设施利用,最大化每美元的token产出。

生态系统与开源

我们为开源生态系统做贡献,并与领先的芯片厂商合作。

AMD ROCm
llm-d
Tenstorrent Metalium
SGLang
SkyPilot
AMD ROCm
llm-d
Tenstorrent Metalium
SGLang
SkyPilot
AMD ROCm
llm-d
Tenstorrent Metalium
SGLang
SkyPilot
AMD ROCm
llm-d
Tenstorrent Metalium
SGLang
SkyPilot