프로덕션 LLM 서빙을 위해 설계되었습니다
Kernel/Library-Level MoE Optimization
커스텀 연산 커널과 통신 라이브러리로 Galaxy에서 효율적인 MoE 실행을 구현합니다 — GPT-OSS, Qwen, GLM, DeepSeek 등 최신 LLM을 지원합니다.
vLLM-Compatible API
최신 vLLM과의 드롭인 호환 — OpenAI 호환 서빙 엔드포인트, Prometheus 메트릭 포맷, KV 이벤트 스트림까지 모두 vLLM과 동일합니다. 기존 클라이언트, 대시보드, 라우터를 그대로 재사용할 수 있습니다.
Production Serving Fundamentals
Paged attention, variable-length batching, chunked prefill, automatic prefix caching — 현대 LLM을 고처리량으로 서빙하기 위해 엔진 내부에 필요한 기법들을 모두 갖추고 있습니다.
Prefill-Decode Disaggregation
Prefill과 decode를 별도의 워커에서 실행해 각 단계를 독립적으로 스케일링합니다 — 고처리량 서빙에서 활용률과 지연 시간을 개선합니다.
비용 효율적인 하드웨어에서의 GPU급 성능
애플리케이션에 필요한 최신 LLM을 Tenstorrent Galaxy와 Moreh vLLM 조합으로 그대로 실행하세요 — 프로덕션 서빙이 요구하는 처리량을, 플래그십 GPU 시스템보다 본질적으로 비용 효율적인 실리콘 위에서 제공합니다. 아래 참고 수치는 Wormhole Galaxy와 8x A100을 비교한 것이며, Blackhole Galaxy는 보다 최신 세대 GPU와 비교할 수 있는 수준입니다.
| Model | High-throughput decode (tok/s) | Interactive decode, b=32 (tok/s) | Long-context prefill (tok/s) | |||
|---|---|---|---|---|---|---|
| Wormhole Galaxy | 8x A100 | Wormhole Galaxy | 8x A100 | Wormhole Galaxy | 8x A100 | |
| GPT-OSS 120B | 16,258.12 | 11,806.45 | 1,141.61 | 1,795.25 | 37,055.34 | 38,656.68 |
| Qwen3 235B | 6,992.67 | 6,470.91 | 577.82 | 647.15 | 13,220.94 | 16,037.79 |
지원 모델
최신 오픈소스 LLM 지원을 지속적으로 확장해 나가고 있습니다.
지원 하드웨어
Moreh가 제공하는 턴키 Tenstorrent 어플라이언스의 일부로 배포됩니다 — 하드웨어, 네트워킹, 소프트웨어가 함께 제공됩니다.