Suy luận LLM tối ưu trên mọi bộ tăng tốc

Từ kernel tùy chỉnh đến phân phối serving, chúng tôi xây dựng phần mềm toàn diện giúp khai thác hiệu năng suy luận cao nhất trên GPU AMD, chip Tenstorrent và cluster đa dạng.

1.68×

so với ROCm vLLM

DeepSeek R1 trên một server

20,000+

tok/s mỗi node

DeepSeek R1 trên cluster MI300X

1.7×

với GPU đa nhà cung cấp

NVIDIA + AMD PD disaggregation

2.2×

thông lượng với ít hơn 40% server

Định tuyến nhận biết prefix cache

Phần mềm suy luận toàn diện

Từ kernel đến cluster

Moreh bao phủ toàn bộ stack suy luận trên các bộ tăng tốc đa dạng — từ kernel cấp chip đến phân phối serving.

MoAI Inference Framework

Định tuyến & Lập lịch · Tự động mở rộng · Tối ưu theo SLO · KV Cache

Moreh vLLM

Tối ưu mô hình SOTA · Lượng tử hóa · Thực thi đồ thị

Native vLLM

Moreh Libraries

Kernel tùy chỉnh · GEMM/Attention/MoE · Truyền thông

GPU AMD Instinct

Chip Tenstorrent

GPU NVIDIA

Why Moreh

Ba cách phần mềm suy luận của chúng tôi tạo ra giá trị cho hạ tầng AI của bạn.

Suy luận trên bộ tăng tốc ngoài NVIDIA

Phần mềm toàn diện từ kernel đến framework cấp cluster, được tối ưu cho GPU AMD và hỗ trợ suy luận trên chip Tenstorrent.

Suy luận GPU đa dạng

Hợp nhất GPU từ nhiều nhà cung cấp, kiến trúc và thế hệ khác nhau thành một cluster suy luận duy nhất — tối đa hóa hiệu quả của mọi chip trong trung tâm dữ liệu.

Tối ưu chi phí suy luận

Tối đa hóa token trên mỗi đô la thông qua tối ưu cấp chip, tối ưu truyền thông và tận dụng hạ tầng đa nhà cung cấp.

Hệ sinh thái & Mã nguồn mở

Chúng tôi đóng góp cho hệ sinh thái mã nguồn mở và hợp tác với các nhà sản xuất chip hàng đầu.

AMD ROCm
llm-d
Tenstorrent Metalium
SGLang
SkyPilot
AMD ROCm
llm-d
Tenstorrent Metalium
SGLang
SkyPilot
AMD ROCm
llm-d
Tenstorrent Metalium
SGLang
SkyPilot
AMD ROCm
llm-d
Tenstorrent Metalium
SGLang
SkyPilot