Suy luận LLM tối ưu trên mọi bộ tăng tốc
Từ kernel tùy chỉnh đến phân phối serving, chúng tôi xây dựng phần mềm toàn diện giúp khai thác hiệu năng suy luận cao nhất trên GPU AMD, chip Tenstorrent và cluster đa dạng.
1.68×
so với ROCm vLLM
DeepSeek R1 trên một server
20,000+
tok/s mỗi node
DeepSeek R1 trên cluster MI300X
1.7×
với GPU đa nhà cung cấp
NVIDIA + AMD PD disaggregation
2.2×
thông lượng với ít hơn 40% server
Định tuyến nhận biết prefix cache
Phần mềm suy luận toàn diện
Từ kernel đến cluster
Moreh bao phủ toàn bộ stack suy luận trên các bộ tăng tốc đa dạng — từ kernel cấp chip đến phân phối serving.
MoAI Inference Framework
Định tuyến & Lập lịch · Tự động mở rộng · Tối ưu theo SLO · KV Cache
Moreh vLLM
Tối ưu mô hình SOTA · Lượng tử hóa · Thực thi đồ thị
Native vLLM
Moreh Libraries
Kernel tùy chỉnh · GEMM/Attention/MoE · Truyền thông
GPU AMD Instinct
Chip Tenstorrent
GPU NVIDIA
Why Moreh
Ba cách phần mềm suy luận của chúng tôi tạo ra giá trị cho hạ tầng AI của bạn.
Suy luận trên bộ tăng tốc ngoài NVIDIA
Phần mềm toàn diện từ kernel đến framework cấp cluster, được tối ưu cho GPU AMD và hỗ trợ suy luận trên chip Tenstorrent.
Suy luận GPU đa dạng
Hợp nhất GPU từ nhiều nhà cung cấp, kiến trúc và thế hệ khác nhau thành một cluster suy luận duy nhất — tối đa hóa hiệu quả của mọi chip trong trung tâm dữ liệu.
Tối ưu chi phí suy luận
Tối đa hóa token trên mỗi đô la thông qua tối ưu cấp chip, tối ưu truyền thông và tận dụng hạ tầng đa nhà cung cấp.
Từ Blog của chúng tôi
Xem tất cả ›
Suy luận Disaggregated đa nhà cung cấp: GPT-OSS-120B trên GPU NVIDIA H100 và AMD MI300X
March 18, 2026
MoAI Inference Framework cho phép disaggregation đa nhà cung cấp với H100 cho prefill và MI300X cho decode, giảm độ trễ tới 43% và tăng thông lượng tới 67% so với cụm đơn nhà cung cấp.

Suy luận Disaggregated đa node: DeepSeek R1 671B trên GPU AMD Instinct MI300X
March 17, 2026
Đánh giá hiệu năng prefill-decode disaggregation cho DeepSeek R1 671B trên cụm 5 node AMD Instinct MI300X sử dụng MoAI Inference Framework, đạt cải thiện độ trễ đầu-cuối lên tới 1.84 lần và giảm P99 inter-token latency 23.85 lần.

Moreh khai phá tiềm năng AMD MI300X: Suy luận DeepSeek R1 nhanh hơn 1,5 lần so với SGLang (InferenceMAX)
March 16, 2026
Chúng tôi đã chạy benchmark InferenceMAX bằng engine suy luận tối ưu hóa của riêng mình và đạt được cải thiện 1,47 lần về độ trễ end-to-end và thông lượng trên mỗi GPU (trung bình hình học) trên cùng phần cứng AMD MI300X, chứng minh tối ưu hóa phần mềm là chìa khóa khai phá toàn bộ tiềm năng GPU AMD.
Hệ sinh thái & Mã nguồn mở
Chúng tôi đóng góp cho hệ sinh thái mã nguồn mở và hợp tác với các nhà sản xuất chip hàng đầu.



















