Building Block

Moreh vLLM for Tenstorrent

Tenstorrent Galaxy 시스템을 위한 프로덕션급 LLM 서빙 엔진. 최적화된 MoE LLM 실행, vLLM API 호환성, 그리고 데이터 센터 배포에 필요한 서빙 기본기를 제공합니다.

Capabilities

프로덕션 LLM 서빙을 위해 설계되었습니다

Kernel/Library-Level MoE Optimization

커스텀 연산 커널과 통신 라이브러리로 Galaxy에서 효율적인 MoE 실행을 구현합니다 — GPT-OSS, Qwen, GLM, DeepSeek 등 최신 LLM을 지원합니다.

vLLM-Compatible API

최신 vLLM과의 드롭인 호환 — OpenAI 호환 서빙 엔드포인트, Prometheus 메트릭 포맷, KV 이벤트 스트림까지 모두 vLLM과 동일합니다. 기존 클라이언트, 대시보드, 라우터를 그대로 재사용할 수 있습니다.

Production Serving Fundamentals

Paged attention, variable-length batching, chunked prefill, automatic prefix caching — 현대 LLM을 고처리량으로 서빙하기 위해 엔진 내부에 필요한 기법들을 모두 갖추고 있습니다.

Prefill-Decode Disaggregation

Prefill과 decode를 별도의 워커에서 실행해 각 단계를 독립적으로 스케일링합니다 — 고처리량 서빙에서 활용률과 지연 시간을 개선합니다.

Performance

비용 효율적인 하드웨어에서의 GPU급 성능

애플리케이션에 필요한 최신 LLM을 Tenstorrent Galaxy와 Moreh vLLM 조합으로 그대로 실행하세요 — 프로덕션 서빙이 요구하는 처리량을, 플래그십 GPU 시스템보다 본질적으로 비용 효율적인 실리콘 위에서 제공합니다. 아래 참고 수치는 Wormhole Galaxy와 8x A100을 비교한 것이며, Blackhole Galaxy는 보다 최신 세대 GPU와 비교할 수 있는 수준입니다.

Model	High-throughput decode (tok/s)		Interactive decode, b=32 (tok/s)		Long-context prefill (tok/s)
Model	Wormhole Galaxy	8x A100	Wormhole Galaxy	8x A100	Wormhole Galaxy	8x A100
GPT-OSS 120B	16,258.12	11,806.45	1,141.61	1,795.25	37,055.34	38,656.68
Qwen3 235B	6,992.67	6,470.91	577.82	647.15	13,220.94	16,037.79

Models

지원 모델

최신 오픈소스 LLM 지원을 지속적으로 확장해 나가고 있습니다.

Hardware

지원 하드웨어

Moreh가 제공하는 턴키 Tenstorrent 어플라이언스의 일부로 배포됩니다 — 하드웨어, 네트워킹, 소프트웨어가 함께 제공됩니다.