Building Block

MoAI Performance Gateway

Định tuyến các yêu cầu suy luận giữa những chip không đồng nhất trong trung tâm dữ liệu của bạn để khai thác hiệu năng tối ưu từ mọi bộ tăng tốc. Cung cấp API tương thích OpenAI và Anthropic, được xây dựng cho môi trường sản xuất.

A New Category

Performance gateway, một danh mục mới được định nghĩa

Các AI gateway thường có nghĩa là định tuyến giữa các nhà cung cấp mô hình hoặc giữa các khu vực. Moreh định nghĩa một danh mục mới: định tuyến bên trong một trung tâm dữ liệu, giữa các chip bạn đã có sẵn, để đạt hiệu năng cao nhất.

GatewayPhạm viĐối tượngVai trò
Semantic gatewayTrong hoặc giữa các trung tâm dữ liệuNhiều mô hìnhChọn mô hình phù hợp nhất (nhỏ hơn) dựa trên ngữ nghĩa của yêu cầu
Multi-provider gatewayGiữa các trung tâm dữ liệuNhiều nhà cung cấp APIChọn khu vực tiết kiệm chi phí nhất hoặc đang khả dụng
Performance gatewayTrong một trung tâm dữ liệuNhiều chipPhân phối yêu cầu giữa nhiều chip (không đồng nhất) trong một trung tâm dữ liệu để đạt hiệu năng tối ưu
Capabilities

Được thiết kế để đạt hiệu năng

Mỗi quyết định định tuyến đều dựa trên trạng thái KV cache theo từng yêu cầu, đặc điểm khối lượng công việc và telemetry engine theo thời gian thực.

Prefix Cache-Aware Routing

Định tuyến từng yêu cầu đến chip có prefix đã được cache dài nhất, giảm thiểu việc tính lại KV cache trong các cuộc trò chuyện nhiều lượt và ngữ cảnh dài.

Request Length-Based Routing

Chọn chip và cấu hình serving phù hợp nhất với độ dài chuỗi của yêu cầu, khớp đặc điểm khối lượng công việc với phần cứng.

Flexible Routing Composition

Kết hợp các filter, scorer và picker thành pipeline định tuyến tùy chỉnh thông qua cấu hình khai báo. Có thể plug-in prefix cache-aware, load-aware, request length-based, hoặc các scorer tùy chỉnh.

Heterogeneous Prefill-Decode Disaggregation

Điều phối các pha prefill và decode giữa các chip khác nhà cung cấp và kiến trúc, với fallback tự động về serving một pha khi truyền tải thất bại.

Giảm thiểu overhead ngoài GPU compute

Routing, scheduling và telemetry event-driven — vốn thường trải dài qua nhiều dịch vụ — đều chạy bên trong một binary duy nhất, giảm thiểu các hop liên tiến trình trên hot path của yêu cầu. Ngay cả khi tải cao, độ trễ thực sự đáng kể trong pipeline suy luận của bạn chỉ là GPU compute mà thôi.

16×P99 latency thấp hơnso với Istio + EPP
<1 µsScheduling hot path
Architecture

Tách độ phức tạp của API hiện đại khỏi serving engine của bạn

Tool calling, reasoning budget, chat template, structured output, giao thức streaming — các AI API ngày càng phức tạp hơn theo tháng, và phần lớn độ phức tạp đó không phụ thuộc vào GPU. MoAI Performance Gateway hấp thụ chúng ở biên để serving engine của bạn vẫn đơn giản: tokens vào, tokens ra. Cập nhật lên API surface hay reasoning model tiếp theo mà không cần chạm đến phần mềm phụ thuộc GPU.

Được Gateway xử lý
Chat templatesTool-call parsingReasoning extractionToken accountingStreaming SSERequest validationObservability events
Cái engine nhìn thấy
token_ids → engine → token_ids
API Surfaces

Hỗ trợ các API mà ứng dụng của bạn đã sử dụng

Tương thích OpenAI và Anthropic — với các tính năng quan trọng cho khối lượng công việc agent và reasoning.

OpenAI Chat Completions API

POST /v1/chat/completions
Tool callsStreaming SSEReasoning contentSystem/developer roles

OpenAI Responses API

POST /v1/responses
Tool callsStreaming SSEReasoning contentSystem/developer rolesStateful conversation

Anthropic Messages API

POST /v1/messages
Tool useStreaming deltasExtended thinkingSystem prompts