Building Block

MoAI Performance Gateway

Định tuyến các yêu cầu suy luận giữa những chip không đồng nhất trong trung tâm dữ liệu của bạn để khai thác hiệu năng tối ưu từ mọi bộ tăng tốc. Cung cấp API tương thích OpenAI và Anthropic, được xây dựng cho môi trường sản xuất.

A New Category

Performance gateway, một danh mục mới được định nghĩa

Các AI gateway thường có nghĩa là định tuyến giữa các nhà cung cấp mô hình hoặc giữa các khu vực. Moreh định nghĩa một danh mục mới: định tuyến bên trong một trung tâm dữ liệu, giữa các chip bạn đã có sẵn, để đạt hiệu năng cao nhất.

Gateway	Phạm vi	Đối tượng	Vai trò
Semantic gateway	Trong hoặc giữa các trung tâm dữ liệu	Nhiều mô hình	Chọn mô hình phù hợp nhất (nhỏ hơn) dựa trên ngữ nghĩa của yêu cầu
Multi-provider gateway	Giữa các trung tâm dữ liệu	Nhiều nhà cung cấp API	Chọn khu vực tiết kiệm chi phí nhất hoặc đang khả dụng
Performance gateway	Trong một trung tâm dữ liệu	Nhiều chip	Phân phối yêu cầu giữa nhiều chip (không đồng nhất) trong một trung tâm dữ liệu để đạt hiệu năng tối ưu

Capabilities

Được thiết kế để đạt hiệu năng

Mỗi quyết định định tuyến đều dựa trên trạng thái KV cache theo từng yêu cầu, đặc điểm khối lượng công việc và telemetry engine theo thời gian thực.

Prefix Cache-Aware Routing

Định tuyến từng yêu cầu đến chip có prefix đã được cache dài nhất, giảm thiểu việc tính lại KV cache trong các cuộc trò chuyện nhiều lượt và ngữ cảnh dài.

Request Length-Based Routing

Chọn chip và cấu hình serving phù hợp nhất với độ dài chuỗi của yêu cầu, khớp đặc điểm khối lượng công việc với phần cứng.

Flexible Routing Composition

Kết hợp các filter, scorer và picker thành pipeline định tuyến tùy chỉnh thông qua cấu hình khai báo. Có thể plug-in prefix cache-aware, load-aware, request length-based, hoặc các scorer tùy chỉnh.

Heterogeneous Prefill-Decode Disaggregation

Điều phối các pha prefill và decode giữa các chip khác nhà cung cấp và kiến trúc, với fallback tự động về serving một pha khi truyền tải thất bại.

Giảm thiểu overhead ngoài GPU compute

Routing, scheduling và telemetry event-driven — vốn thường trải dài qua nhiều dịch vụ — đều chạy bên trong một binary duy nhất, giảm thiểu các hop liên tiến trình trên hot path của yêu cầu. Ngay cả khi tải cao, độ trễ thực sự đáng kể trong pipeline suy luận của bạn chỉ là GPU compute mà thôi.

16×P99 latency thấp hơnso với Istio + EPP

<1 µsScheduling hot path

Architecture

Tách độ phức tạp của API hiện đại khỏi serving engine của bạn

Tool calling, reasoning budget, chat template, structured output, giao thức streaming — các AI API ngày càng phức tạp hơn theo tháng, và phần lớn độ phức tạp đó không phụ thuộc vào GPU. MoAI Performance Gateway hấp thụ chúng ở biên để serving engine của bạn vẫn đơn giản: tokens vào, tokens ra. Cập nhật lên API surface hay reasoning model tiếp theo mà không cần chạm đến phần mềm phụ thuộc GPU.

Được Gateway xử lý

Cái engine nhìn thấy

token_ids → engine → token_ids

API Surfaces

Hỗ trợ các API mà ứng dụng của bạn đã sử dụng

Tương thích OpenAI và Anthropic — với các tính năng quan trọng cho khối lượng công việc agent và reasoning.

OpenAI Chat Completions API

POST /v1/chat/completions

OpenAI Responses API

POST /v1/responses

Anthropic Messages API

POST /v1/messages