Suy luận LLM tối ưu trên mọi bộ tăng tốc
Từ kernel tùy chỉnh đến phân phối serving, chúng tôi xây dựng phần mềm toàn diện giúp khai thác hiệu năng suy luận cao nhất trên GPU AMD, chip Tenstorrent và cluster đa dạng.
1.68×
so với ROCm vLLM
DeepSeek R1 trên một server
20,000+
tok/s mỗi node
DeepSeek R1 trên cluster MI300X
1.7×
với GPU đa nhà cung cấp
NVIDIA + AMD PD disaggregation
2.2×
thông lượng với ít hơn 40% server
Định tuyến nhận biết prefix cache
Phần mềm suy luận toàn diện
Từ kernel đến cluster
Moreh bao phủ toàn bộ stack suy luận trên các bộ tăng tốc đa dạng — từ kernel cấp chip đến phân phối serving.
MoAI Inference Framework
Định tuyến & Lập lịch · Tự động mở rộng · Tối ưu theo SLO · KV Cache
Moreh vLLM
Tối ưu mô hình SOTA · Lượng tử hóa · Thực thi đồ thị
Native vLLM
Moreh Libraries
Kernel tùy chỉnh · GEMM/Attention/MoE · Truyền thông
GPU AMD Instinct
Chip Tenstorrent
GPU NVIDIA
Why Moreh
Ba cách phần mềm suy luận của chúng tôi tạo ra giá trị cho hạ tầng AI của bạn.
Suy luận trên bộ tăng tốc ngoài NVIDIA
Phần mềm toàn diện từ kernel đến framework cấp cluster, được tối ưu cho GPU AMD và hỗ trợ suy luận trên chip Tenstorrent.
Suy luận GPU đa dạng
Hợp nhất GPU từ nhiều nhà cung cấp, kiến trúc và thế hệ khác nhau thành một cluster suy luận duy nhất — tối đa hóa hiệu quả của mọi chip trong trung tâm dữ liệu.
Tối ưu chi phí suy luận
Tối đa hóa token trên mỗi đô la thông qua tối ưu cấp chip, tối ưu truyền thông và tận dụng hạ tầng đa nhà cung cấp.
Từ Blog của chúng tôi
Xem tất cả ›
Moreh Unlocks AMD MI300X Potential: 1.5× Faster DeepSeek R1 Inference vs. SGLang (InferenceMax)
March 16, 2026
Moreh’s optimized inference engine achieves 1.47x improvement in end-to-end latency and throughput per GPU for DeepSeek R1 on AMD MI300X, compared to InferenceMAX baseline.

TIDE: Temporal Incremental Draft Engine for Self-Improving LLM Inference
February 5, 2026
TIDE continuously improves inference speed by training a lightweight draft model in the background, using idle GPUs in the cluster — no extra data preparation or downtime required.

Step3 Inference Optimization on AMD Instinct MI308X: 1.30× Higher Decode Throughput vs. NVIDIA H20
December 29, 2025
Moreh optimized StepFun’s Step3 321B MoE model for AMD Instinct MI308X GPUs, achieving 1.30× higher decode throughput and 23% lower decode latency compared to NVIDIA H20.
Hệ sinh thái & Mã nguồn mở
Chúng tôi đóng góp cho hệ sinh thái mã nguồn mở và hợp tác với các nhà sản xuất chip hàng đầu.



















