MoAI Performance Gateway
Định tuyến các yêu cầu suy luận giữa những chip không đồng nhất trong trung tâm dữ liệu của bạn để khai thác hiệu năng tối ưu từ mọi bộ tăng tốc. Cung cấp API tương thích OpenAI và Anthropic, được xây dựng cho môi trường sản xuất.
Performance gateway, một danh mục mới được định nghĩa
Các AI gateway thường có nghĩa là định tuyến giữa các nhà cung cấp mô hình hoặc giữa các khu vực. Moreh định nghĩa một danh mục mới: định tuyến bên trong một trung tâm dữ liệu, giữa các chip bạn đã có sẵn, để đạt hiệu năng cao nhất.
| Gateway | Phạm vi | Đối tượng | Vai trò |
|---|---|---|---|
| Semantic gateway | Trong hoặc giữa các trung tâm dữ liệu | Nhiều mô hình | Chọn mô hình phù hợp nhất (nhỏ hơn) dựa trên ngữ nghĩa của yêu cầu |
| Multi-provider gateway | Giữa các trung tâm dữ liệu | Nhiều nhà cung cấp API | Chọn khu vực tiết kiệm chi phí nhất hoặc đang khả dụng |
| Performance gateway | Trong một trung tâm dữ liệu | Nhiều chip | Phân phối yêu cầu giữa nhiều chip (không đồng nhất) trong một trung tâm dữ liệu để đạt hiệu năng tối ưu |
Được thiết kế để đạt hiệu năng
Mỗi quyết định định tuyến đều dựa trên trạng thái KV cache theo từng yêu cầu, đặc điểm khối lượng công việc và telemetry engine theo thời gian thực.
Prefix Cache-Aware Routing
Định tuyến từng yêu cầu đến chip có prefix đã được cache dài nhất, giảm thiểu việc tính lại KV cache trong các cuộc trò chuyện nhiều lượt và ngữ cảnh dài.
Request Length-Based Routing
Chọn chip và cấu hình serving phù hợp nhất với độ dài chuỗi của yêu cầu, khớp đặc điểm khối lượng công việc với phần cứng.
Flexible Routing Composition
Kết hợp các filter, scorer và picker thành pipeline định tuyến tùy chỉnh thông qua cấu hình khai báo. Có thể plug-in prefix cache-aware, load-aware, request length-based, hoặc các scorer tùy chỉnh.
Heterogeneous Prefill-Decode Disaggregation
Điều phối các pha prefill và decode giữa các chip khác nhà cung cấp và kiến trúc, với fallback tự động về serving một pha khi truyền tải thất bại.
Giảm thiểu overhead ngoài GPU compute
Routing, scheduling và telemetry event-driven — vốn thường trải dài qua nhiều dịch vụ — đều chạy bên trong một binary duy nhất, giảm thiểu các hop liên tiến trình trên hot path của yêu cầu. Ngay cả khi tải cao, độ trễ thực sự đáng kể trong pipeline suy luận của bạn chỉ là GPU compute mà thôi.
Tách độ phức tạp của API hiện đại khỏi serving engine của bạn
Tool calling, reasoning budget, chat template, structured output, giao thức streaming — các AI API ngày càng phức tạp hơn theo tháng, và phần lớn độ phức tạp đó không phụ thuộc vào GPU. MoAI Performance Gateway hấp thụ chúng ở biên để serving engine của bạn vẫn đơn giản: tokens vào, tokens ra. Cập nhật lên API surface hay reasoning model tiếp theo mà không cần chạm đến phần mềm phụ thuộc GPU.
token_ids → engine → token_idsHỗ trợ các API mà ứng dụng của bạn đã sử dụng
Tương thích OpenAI và Anthropic — với các tính năng quan trọng cho khối lượng công việc agent và reasoning.
OpenAI Chat Completions API
POST /v1/chat/completionsOpenAI Responses API
POST /v1/responsesAnthropic Messages API
POST /v1/messages