Suy luận LLM tối ưu trên mọi bộ tăng tốc

Từ kernel tùy chỉnh đến phân phối serving, chúng tôi xây dựng phần mềm toàn diện giúp khai thác hiệu năng suy luận cao nhất trên GPU AMD, chip Tenstorrent và cluster đa dạng.

Yêu cầu Demo Xem Benchmark

1.68×

so với ROCm vLLM

DeepSeek R1 trên một server

20,000+

tok/s mỗi node

DeepSeek R1 trên cluster MI300X

1.7×

với GPU đa nhà cung cấp

NVIDIA + AMD PD disaggregation

2.2×

thông lượng với ít hơn 40% server

Định tuyến nhận biết prefix cache

Phần mềm suy luận toàn diện

Từ kernel đến cluster

Moreh bao phủ toàn bộ stack suy luận trên các bộ tăng tốc đa dạng — từ kernel cấp chip đến phân phối serving.

MoAI Inference Framework

Định tuyến & Lập lịch · Tự động mở rộng · Tối ưu theo SLO · KV Cache

Moreh vLLM

Tối ưu mô hình SOTA · Lượng tử hóa · Thực thi đồ thị

Native vLLM

Moreh Libraries

Kernel tùy chỉnh · GEMM/Attention/MoE · Truyền thông

GPU AMD Instinct

Chip Tenstorrent

GPU NVIDIA

Why Moreh

Ba cách phần mềm suy luận của chúng tôi tạo ra giá trị cho hạ tầng AI của bạn.

Suy luận trên bộ tăng tốc ngoài NVIDIA

Phần mềm toàn diện từ kernel đến framework cấp cluster, được tối ưu cho GPU AMD và hỗ trợ suy luận trên chip Tenstorrent.

AMD GPU ›Tenstorrent ›

Suy luận GPU đa dạng

Hợp nhất GPU từ nhiều nhà cung cấp, kiến trúc và thế hệ khác nhau thành một cluster suy luận duy nhất — tối đa hóa hiệu quả của mọi chip trong trung tâm dữ liệu.

Tìm hiểu thêm ›

Tối ưu chi phí suy luận

Tối đa hóa token trên mỗi đô la thông qua tối ưu cấp chip, tối ưu truyền thông và tận dụng hạ tầng đa nhà cung cấp.

Tìm hiểu thêm ›

Từ Blog của chúng tôi

Xem tất cả ›

Suy luận Disaggregated đa nhà cung cấp: GPT-OSS-120B trên GPU NVIDIA H100 và AMD MI300X

March 18, 2026

MoAI Inference Framework cho phép disaggregation đa nhà cung cấp với H100 cho prefill và MI300X cho decode, giảm độ trễ tới 43% và tăng thông lượng tới 67% so với cụm đơn nhà cung cấp.

Suy luận Disaggregated đa node: DeepSeek R1 671B trên GPU AMD Instinct MI300X

March 17, 2026

Đánh giá hiệu năng prefill-decode disaggregation cho DeepSeek R1 671B trên cụm 5 node AMD Instinct MI300X sử dụng MoAI Inference Framework, đạt cải thiện độ trễ đầu-cuối lên tới 1.84 lần và giảm P99 inter-token latency 23.85 lần.

Moreh khai phá tiềm năng AMD MI300X: Suy luận DeepSeek R1 nhanh hơn 1,5 lần so với SGLang (InferenceMAX)

March 16, 2026

Chúng tôi đã chạy benchmark InferenceMAX bằng engine suy luận tối ưu hóa của riêng mình và đạt được cải thiện 1,47 lần về độ trễ end-to-end và thông lượng trên mỗi GPU (trung bình hình học) trên cùng phần cứng AMD MI300X, chứng minh tối ưu hóa phần mềm là chìa khóa khai phá toàn bộ tiềm năng GPU AMD.

Hệ sinh thái & Mã nguồn mở

Chúng tôi đóng góp cho hệ sinh thái mã nguồn mở và hợp tác với các nhà sản xuất chip hàng đầu.