Building Block

Moreh vLLM for Tenstorrent

面向 Tenstorrent Galaxy 系统的生产级 LLM 服务引擎。优化的 MoE LLM 执行、vLLM API 兼容性,以及数据中心部署所需的全部服务基础能力。

申请演示→查看基准测试

Capabilities

为生产级 LLM 服务而构建

Kernel/Library-Level MoE Optimization

通过自定义算子内核与通信库,实现 Galaxy 上高效的 MoE 执行 — 支持包括 GPT-OSS、Qwen、GLM、DeepSeek 在内的最新 LLM。

vLLM-Compatible API

与最新 vLLM 即插即用兼容 — OpenAI 兼容的服务端点、Prometheus 指标格式以及 KV 事件流全部与 vLLM 一致。现有客户端、仪表盘和路由器可直接复用。

Production Serving Fundamentals

Paged attention、variable-length batching、chunked prefill、automatic prefix caching — 现代 LLM 高吞吐服务所需的引擎内核心技术一应俱全。

Prefill-Decode Disaggregation

在不同的 worker 上运行 prefill 与 decode,独立扩展两个阶段 — 提升高吞吐服务的资源利用率与延迟表现。

Performance

在高性价比硬件上的 GPU 级性能

将应用所需的最新 LLM 直接运行在 Tenstorrent Galaxy + Moreh vLLM 上 — 以生产服务所需的吞吐量,跑在性价比从根本上优于旗舰 GPU 系统的硬件之上。下方参考数据将 Wormhole Galaxy 与 8x A100 进行对比;Blackhole Galaxy 可与更新一代的 GPU 相比较。

Model	High-throughput decode (tok/s)		Interactive decode, b=32 (tok/s)		Long-context prefill (tok/s)
Model	Wormhole Galaxy	8x A100	Wormhole Galaxy	8x A100	Wormhole Galaxy	8x A100
GPT-OSS 120B	16,258.12	11,806.45	1,141.61	1,795.25	37,055.34	38,656.68
Qwen3 235B	6,992.67	6,470.91	577.82	647.15	13,220.94	16,037.79

Models

支持的模型

对最新开源 LLM 的支持在持续扩展中。

Hardware

支持的硬件

作为 Moreh 一站式 Tenstorrent 一体机的一部分交付 — 硬件、网络与软件一并提供。