Solution

Tối đa hóa token trên mỗi đô la

Chi phí suy luận LLM chiếm phần lớn ngân sách vận hành AI — và tiếp tục tăng khi mô hình mở rộng và khối lượng công việc agent đa dạng hơn. Moreh tối ưu ở mọi cấp độ để mang lại nhiều token nhất trên mỗi đô la.

Ba đòn bẩy giảm chi phí

Ba đòn bẩy này hoạt động theo cấp số nhân — tối ưu chip nhân với hiệu quả cluster nhân với tiết kiệm chi phí hạ tầng.

1

Tối ưu cấp chip — Moreh vLLM

Thông lượng cao hơn 1.68× so với ROCm vLLM trên DeepSeek R1 671B. Phép toán tùy chỉnh, tối ưu độ chính xác và kết hợp operator trích xuất tối đa token mỗi giây từ mọi GPU.

Custom GEMM/Attention/MoEOperation fusionQuantizationComm/compute overlapEP load balancing
2

Tối ưu cấp cluster — MoAI Inference Framework

Thông lượng 2.2× trên ít hơn 40% server nhờ định tuyến nhận biết prefix cache. Phân tách prefill-decode, định tuyến thông minh, tự động mở rộng và tối ưu theo SLO tối đa hóa mức sử dụng trên toàn cluster.

PD disaggregationPrefix cache-aware routingSLO-driven optimization
3

Chi phí hạ tầng — Tận dụng GPU đa dạng

Thông lượng 1.7× nhờ kết hợp GPU NVIDIA và AMD với PD disaggregation đa nhà cung cấp. Sử dụng GPU AMD tiết kiệm chi phí, bộ tăng tốc Tenstorrent hoặc phần cứng thế hệ cũ — mọi GPU đều đóng góp vào thông lượng cluster.

Cross-vendor PD disaggregationModel-aware GPU placementLength-based routing

Xem con số cho khối lượng công việc của bạn

Chia sẻ mô hình, mẫu lưu lượng và phần cứng của bạn — chúng tôi sẽ chạy benchmark tùy chỉnh và cho bạn thấy mức tiết kiệm chi phí.