本番LLMサービングのために設計
Kernel/Library-Level MoE Optimization
カスタムオペレーションカーネルと通信ライブラリにより、Galaxy上で効率的なMoE実行を実現します — GPT-OSS、Qwen、GLM、DeepSeekなど最新のLLMをサポートします。
vLLM-Compatible API
最新のvLLMとドロップイン互換 — OpenAI互換のサービングエンドポイント、Prometheusメトリクス形式、KVイベントストリームまですべてvLLMと一致します。既存のクライアント、ダッシュボード、ルーターをそのまま再利用できます。
Production Serving Fundamentals
Paged attention、variable-length batching、chunked prefill、automatic prefix caching — 現代のLLMを高スループットで運用するためにエンジン内部で必要な技術を一通り備えています。
Prefill-Decode Disaggregation
Prefillとdecodeを別々のワーカーで実行し、各フェーズを独立にスケーリングします — 高スループットサービングにおける利用率とレイテンシを改善します。
コスト効率の高いハードウェアでのGPU級性能
アプリケーションに必要な最新のLLMを、Tenstorrent GalaxyとMoreh vLLMの組み合わせでそのまま実行できます — 本番運用が求めるスループットを、フラッグシップGPUシステムよりも本質的にコスト効率の高いシリコン上で提供します。下記の参考値はWormhole Galaxyと8x A100を比較したもので、Blackhole Galaxyはより新しい世代のGPUと比較可能な水準にあります。
| Model | High-throughput decode (tok/s) | Interactive decode, b=32 (tok/s) | Long-context prefill (tok/s) | |||
|---|---|---|---|---|---|---|
| Wormhole Galaxy | 8x A100 | Wormhole Galaxy | 8x A100 | Wormhole Galaxy | 8x A100 | |
| GPT-OSS 120B | 16,258.12 | 11,806.45 | 1,141.61 | 1,795.25 | 37,055.34 | 38,656.68 |
| Qwen3 235B | 6,992.67 | 6,470.91 | 577.82 | 647.15 | 13,220.94 | 16,037.79 |
対応モデル
最新のオープンソースLLMへの対応を継続的に拡大しています。
対応ハードウェア
Morehのターンキー型Tenstorrentアプライアンスの一部として提供されます — ハードウェア、ネットワーク、ソフトウェアをまとめてお届けします。