Building Block

Moreh vLLM for Tenstorrent

Tenstorrent Galaxyシステム向けの本番運用級LLMサービングエンジン。最適化されたMoE LLM実行、vLLM API互換性、データセンター運用に必要なサービングの基本機能を備えています。

Capabilities

本番LLMサービングのために設計

Kernel/Library-Level MoE Optimization

カスタムオペレーションカーネルと通信ライブラリにより、Galaxy上で効率的なMoE実行を実現します — GPT-OSS、Qwen、GLM、DeepSeekなど最新のLLMをサポートします。

vLLM-Compatible API

最新のvLLMとドロップイン互換 — OpenAI互換のサービングエンドポイント、Prometheusメトリクス形式、KVイベントストリームまですべてvLLMと一致します。既存のクライアント、ダッシュボード、ルーターをそのまま再利用できます。

Production Serving Fundamentals

Paged attention、variable-length batching、chunked prefill、automatic prefix caching — 現代のLLMを高スループットで運用するためにエンジン内部で必要な技術を一通り備えています。

Prefill-Decode Disaggregation

Prefillとdecodeを別々のワーカーで実行し、各フェーズを独立にスケーリングします — 高スループットサービングにおける利用率とレイテンシを改善します。

Performance

コスト効率の高いハードウェアでのGPU級性能

アプリケーションに必要な最新のLLMを、Tenstorrent GalaxyとMoreh vLLMの組み合わせでそのまま実行できます — 本番運用が求めるスループットを、フラッグシップGPUシステムよりも本質的にコスト効率の高いシリコン上で提供します。下記の参考値はWormhole Galaxyと8x A100を比較したもので、Blackhole Galaxyはより新しい世代のGPUと比較可能な水準にあります。

Model	High-throughput decode (tok/s)		Interactive decode, b=32 (tok/s)		Long-context prefill (tok/s)
Model	Wormhole Galaxy	8x A100	Wormhole Galaxy	8x A100	Wormhole Galaxy	8x A100
GPT-OSS 120B	16,258.12	11,806.45	1,141.61	1,795.25	37,055.34	38,656.68
Qwen3 235B	6,992.67	6,470.91	577.82	647.15	13,220.94	16,037.79

Models

対応モデル

最新のオープンソースLLMへの対応を継続的に拡大しています。

Hardware

対応ハードウェア

Morehのターンキー型Tenstorrentアプライアンスの一部として提供されます — ハードウェア、ネットワーク、ソフトウェアをまとめてお届けします。