为生产级 LLM 服务而构建
Kernel/Library-Level MoE Optimization
通过自定义算子内核与通信库,实现 Galaxy 上高效的 MoE 执行 — 支持包括 GPT-OSS、Qwen、GLM、DeepSeek 在内的最新 LLM。
vLLM-Compatible API
与最新 vLLM 即插即用兼容 — OpenAI 兼容的服务端点、Prometheus 指标格式以及 KV 事件流全部与 vLLM 一致。现有客户端、仪表盘和路由器可直接复用。
Production Serving Fundamentals
Paged attention、variable-length batching、chunked prefill、automatic prefix caching — 现代 LLM 高吞吐服务所需的引擎内核心技术一应俱全。
Prefill-Decode Disaggregation
在不同的 worker 上运行 prefill 与 decode,独立扩展两个阶段 — 提升高吞吐服务的资源利用率与延迟表现。
在高性价比硬件上的 GPU 级性能
将应用所需的最新 LLM 直接运行在 Tenstorrent Galaxy + Moreh vLLM 上 — 以生产服务所需的吞吐量,跑在性价比从根本上优于旗舰 GPU 系统的硬件之上。下方参考数据将 Wormhole Galaxy 与 8x A100 进行对比;Blackhole Galaxy 可与更新一代的 GPU 相比较。
| Model | High-throughput decode (tok/s) | Interactive decode, b=32 (tok/s) | Long-context prefill (tok/s) | |||
|---|---|---|---|---|---|---|
| Wormhole Galaxy | 8x A100 | Wormhole Galaxy | 8x A100 | Wormhole Galaxy | 8x A100 | |
| GPT-OSS 120B | 16,258.12 | 11,806.45 | 1,141.61 | 1,795.25 | 37,055.34 | 38,656.68 |
| Qwen3 235B | 6,992.67 | 6,470.91 | 577.82 | 647.15 | 13,220.94 | 16,037.79 |
支持的模型
对最新开源 LLM 的支持在持续扩展中。
支持的硬件
作为 Moreh 一站式 Tenstorrent 一体机的一部分交付 — 硬件、网络与软件一并提供。