Cross-Vendor Disaggregated Inference: GPT-OSS 120B across NVIDIA H100 and AMD MI300X

Khi một GPU không còn làm được tất cả

Các trung tâm dữ liệu AI theo truyền thống được xây dựng xung quanh một mô hình GPU duy nhất — mua càng nhiều GPU NVIDIA mới nhất càng tốt trong ngân sách cho phép, triển khai đồng nhất và để bộ cân bằng tải phân phối yêu cầu đều. Cách tiếp cận này đơn giản, nhưng ngày càng mâu thuẫn với thực tế kinh tế của suy luận AI quy mô lớn. Không có kiến trúc accelerator đơn lẻ nào tối ưu cho mọi khối lượng công việc, và việc chỉ triển khai một loại đồng nghĩa với việc một số phần cứng luôn bị cung cấp thừa hoặc sử dụng không hết công suất.

Ngành công nghiệp đang chuyển hướng sang các hệ thống không đồng nhất, kết hợp các loại accelerator khác nhau, mỗi loại được giao cho khối lượng công việc mà nó xử lý tốt nhất. NVIDIA đã làm rõ hướng đi này tại GTC 2026, trình bày một hệ thống kết hợp Vera Rubin GPU với NVIDIA Groq 3 LPX — một rack chứa 256 LPU accelerator (500 MB SRAM mỗi chip, 150 TB/s băng thông mỗi accelerator) — để thực hiện suy luận phối hợp. NVIDIA cho biết các kiến trúc suy luận trước đây buộc phải lựa chọn giữa tương tác và thông lượng — “bạn không thể có cả ba” (tương tác, trí tuệ và thông lượng). LPX giải quyết vấn đề này bằng cách kết hợp mật độ tính toán của GPU với khả năng truy cập SRAM siêu nhanh của LPU trong một hệ thống duy nhất, tuyên bố thông lượng mỗi megawatt cao hơn tới 35× cho các mô hình nghìn tỷ tham số.

Figure 1. NVIDIA Groq 3 LPX rack containing 256 LPU accelerators, designed to work alongside Rubin GPU racks for heterogeneous inference. — Hình 1. Rack NVIDIA Groq 3 LPX (256 LPU accelerator). Trong hệ thống Vera Rubin, rack này hoạt động cùng với rack Rubin GPU — GPU và LPU cùng thực hiện suy luận, mỗi loại đóng góp thế mạnh kiến trúc của mình. (Nguồn: NVIDIA)

Logic tương tự cũng áp dụng ngoài dòng sản phẩm của một nhà cung cấp duy nhất. Các trung tâm dữ liệu thực tế đã kết hợp các thế hệ GPU khác nhau (B300 cùng H200), các nhà cung cấp GPU khác nhau (NVIDIA và AMD), và các lớp accelerator hoàn toàn khác nhau (GPU và AI accelerator như bộ xử lý Tenstorrent). Mỗi sự kết hợp mở ra một biên giới hiệu quả khác nhau tùy thuộc vào khối lượng công việc.

Prefill-Decode Disaggregation

Trong số các kỹ thuật khác nhau để tận dụng accelerator không đồng nhất, đại diện nhất là prefill-decode disaggregation (PD disaggregation). Suy luận LLM bao gồm hai pha có đặc điểm tính toán khác biệt. Pha prefill xử lý toàn bộ prompt đầu vào song song thông qua phép nhân ma trận dày đặc và bị giới hạn bởi năng lực tính toán. Pha decode tạo token đầu ra từng cái một theo phương thức tự hồi quy, đọc tham số mô hình và KV cache từ bộ nhớ GPU ở mỗi bước, và bị giới hạn bởi băng thông bộ nhớ. Hai pha này có yêu cầu phần cứng khác nhau về căn bản.

Figure 2. Traditional serving vs. disaggregated serving: in traditional serving, prefill and decode share the same GPUs; in disaggregated serving, they run on dedicated GPU groups. — Hình 2. Phục vụ truyền thống (trái) và phục vụ disaggregated (phải). Tách prefill giới hạn tính toán khỏi decode giới hạn bộ nhớ lên các GPU chuyên dụng loại bỏ sự can thiệp giữa hai pha. (Nguồn: NVIDIA)

PD disaggregation tách các pha này lên các nút máy chủ chuyên dụng, giao mỗi GPU cho vai trò phù hợp nhất với đặc tính phần cứng của nó. Nút prefill xử lý prompt đầu vào với thông lượng cao và truyền KV cache kết quả đến nút decode qua mạng tốc độ cao và độ trễ thấp. Nút decode chỉ xử lý việc tạo token, duy trì độ trễ giữa các token thấp và có thể dự đoán. Không có sự tách biệt này, việc kết hợp các GPU khác nhau trong một cụm máy mang lại lợi ích hạn chế — mỗi nút vẫn chạy cả hai pha, và pha yếu hơn trở thành điểm nghẽn.

Thách thức của Disaggregation đa nhà cung cấp

PD disaggregation trong hệ sinh thái của một nhà cung cấp duy nhất đã được hỗ trợ bởi các framework như vLLM, SGLang và NVIDIA Dynamo. Tuy nhiên, việc mở rộng nó qua ranh giới nhà cung cấp — ví dụ, chạy prefill trên GPU NVIDIA và decode trên GPU AMD — đưa ra một loạt thách thức kỹ thuật riêng biệt mà chưa có framework mã nguồn mở nào giải quyết được.

Rào cản căn bản nhất là sự vắng mặt của lớp giao tiếp đa nhà cung cấp thống nhất. GPU NVIDIA dựa vào NCCL và GPU AMD dựa vào RCCL, và các thư viện này không tương tác được với nhau. Việc truyền KV cache giữa nút prefill và nút decode từ các nhà cung cấp khác nhau không thể sử dụng GPUDirect RDMA để truy cập bộ nhớ GPU trực tiếp; thay vào đó, dữ liệu phải được trung chuyển qua bộ nhớ CPU chủ, làm tăng độ trễ trên đường dẫn quan trọng. Hơn nữa, hai hệ sinh thái nhà cung cấp sử dụng các ngăn xếp phần mềm hoàn toàn khác nhau (CUDA vs. ROCm), đòi hỏi triển khai kernel riêng biệt, biên dịch mô hình riêng biệt, và quản lý cẩn thận định dạng bộ nhớ KV cache để đảm bảo tương thích giữa các kiến trúc. Cuối cùng, vì các kiến trúc GPU khác nhau có tỷ lệ tính toán trên băng thông khác nhau, framework phải hiểu đặc điểm hiệu suất của từng kiến trúc để cân bằng tối ưu khối lượng công việc prefill và decode trong toàn cụm máy.

MoAI Inference Framework: Disaggregation đa nhà cung cấp

MoAI Inference Framework là framework suy luận cấp sản xuất duy nhất hỗ trợ PD disaggregation đa nhà cung cấp — định tuyến prefill và decode đến GPU của các nhà cung cấp khác nhau trong một cụm phục vụ duy nhất. Trong khi NVIDIA Dynamo, vLLM và SGLang đều hỗ trợ PD disaggregation trên nền tảng tương ứng, không có cái nào mở rộng khả năng này qua ranh giới nhà cung cấp.

MoAI giải quyết các thách thức đa nhà cung cấp thông qua lớp trừu tượng trung lập về nhà cung cấp, xử lý sự khác biệt về ngăn xếp phần mềm và đặc điểm hiệu suất riêng kiến trúc, cùng với thư viện giao tiếp cho phép truyền KV cache dựa trên RDMA giữa các GPU của nhà cung cấp khác nhau. Nhà điều hành trung tâm dữ liệu có thể thoát khỏi sự ràng buộc với một nhà cung cấp duy nhất, phân bổ ngân sách phần cứng cho nhiều nhà cung cấp, và giao GPU của mỗi nhà cung cấp cho pha công việc mà chúng mang lại hiệu suất tốt nhất.

Trong báo cáo này, chúng tôi đánh giá một sự kết hợp đa nhà cung cấp cụ thể: NVIDIA H100 cho prefill và AMD Instinct MI300X cho decode, phục vụ mô hình GPT-OSS-120B. Trên bốn kịch bản ISL/OSL, cấu hình đa nhà cung cấp đạt được cải thiện 8–9% về trung bình hình học độ trễ đầu cuối và thông lượng so với cụm MI300X đơn nhà cung cấp, với mức cải thiện lên đến 43% về độ trễ và 67% về thông lượng dưới các khối lượng công việc đòi hỏi nhất.

Kiến trúc hệ thống

NVIDIA H100 và AMD Instinct MI300X có các hồ sơ phần cứng khác nhau về căn bản, khiến chúng phù hợp với các pha suy luận khác nhau.

	NVIDIA H100 SXM	AMD Instinct MI300X	MI300X / H100
HBM Capacity	80 GB (HBM3)	192 GB (HBM3)	2.4×
Memory Bandwidth	3.35 TB/s	5.3 TB/s	1.58×
FP8 TFLOPS	1,979	2,615	1.32×
L1 + Scratchpad	256 KB per SM	32 KB L1D + 64 KB LDS per CU	0.38×

MI300X cung cấp dung lượng HBM gấp 2.4× và băng thông bộ nhớ gấp 1.58× so với H100, mang lại lợi thế cấu trúc cho pha decode giới hạn băng thông bộ nhớ. Ngược lại, pha prefill chủ yếu là các phép tính GEMM lớn, trong đó bộ nhớ L1 và scratchpad lớn hơn của H100 (256 KB mỗi SM so với 96 KB mỗi CU) cho phép duy trì hiệu suất tính toán cao hơn mặc dù TFLOPS đỉnh thấp hơn. Dựa trên các đặc tính này, chúng tôi giao H100 cho prefill và MI300X cho decode.

Hai cấu hình được thử nghiệm, mỗi cấu hình gồm một nút prefill chuyên dụng và một nút decode chuyên dụng:

Đa nhà cung cấp (không đồng nhất): Nút H100 cho prefill, nút MI300X cho decode. Moreh triển khai lớp giao tiếp đa nhà cung cấp tùy chỉnh để truyền KV cache qua RDMA. Phiên bản hiện tại trung chuyển dữ liệu qua bộ nhớ chủ; phiên bản tương lai sẽ hỗ trợ GPUDirect RDMA để truyền trực tiếp GPU-đến-GPU qua ranh giới nhà cung cấp.
Đơn nhà cung cấp (đồng nhất): Nút MI300X cho prefill, nút MI300X cho decode. Truyền KV cache sử dụng NIXL connector với GPUDirect RDMA, cho phép truyền bộ nhớ GPU-đến-GPU trực tiếp qua NIC mà không cần trung chuyển CPU.

Công cụ suy luận backend là Moreh vLLM trên các nút AMD MI300X và vLLM trên nút NVIDIA H100. Mặc dù cấu hình đa nhà cung cấp sử dụng đường truyền qua bộ nhớ chủ thay vì GPUDirect RDMA tăng tốc phần cứng, các kỹ thuật chồng chéo tính toán-giao tiếp đã ẩn hiệu quả độ trễ truyền tải, đặc biệt dưới các khối lượng công việc nặng.

Thiết lập thực nghiệm

Sử dụng ba nút máy chủ độc lập: một nút NVIDIA H100 (prefill) với 8× H100 80 GB SXM GPU, và hai nút AMD MI300X (một cho decode, một cho prefill trong các bài thử đơn nhà cung cấp) với 8× MI300X 192 GB OAM GPU mỗi nút. Tất cả các nút được kết nối qua NIC ConnectX-6 200 Gbps.

Category	H100 Node	MI300X Node
CPU	2× AMD EPYC 9654 (96-core, 2.4 GHz)	2× AMD EPYC 9474F (48-core, 3.6 GHz)
Memory	1,536 GB	2,304 GB
GPU	8× NVIDIA H100 80 GB SXM	8× AMD Instinct MI300X 192 GB OAM
NIC	ConnectX-6 (200 Gbps)	ConnectX-6 (200 Gbps)
OS	Ubuntu 22.04.3 LTS	Ubuntu 22.04.4 LTS
Model	GPT-OSS-120B	GPT-OSS-120B
Precision	MXFP4	MXFP4
Parallelism	Tensor Parallelism (TP=8)	Tensor Parallelism (TP=8)
Backend Engine	vLLM 0.15.0	Moreh vLLM

Mô hình mục tiêu là GPT-OSS-120B của OpenAI, một mô hình Mixture-of-Experts (MoE) thưa với tổng số tham số khoảng 116,8 tỷ và khoảng 5,1 tỷ tham số hoạt động mỗi token. Suy luận được chạy với lượng tử hóa MXFP4 và tensor parallelism TP=8, do đó 8 GPU của mỗi nút tạo thành một pipeline mô hình duy nhất. Prefix caching đã được tắt để cô lập hiệu suất tính toán thô của mỗi cấu hình phần cứng.

Bốn kịch bản ISL/OSL (độ dài chuỗi đầu vào / độ dài chuỗi đầu ra) được thử nghiệm: 1K/1K, 1K/8K, 8K/1K và 8K/8K. Mức độ đồng thời từ 1 đến 32 cho hầu hết các kịch bản, với kịch bản 8K/1K mở rộng đến 256 để quan sát hành vi dưới tải nặng. Tốc độ yêu cầu cố định ở REQ_RATE=8 cho tất cả thực nghiệm. Hai vòng khởi động được thực hiện trước mỗi lần đo để loại bỏ hiệu ứng khởi động nguội từ phân bổ bộ nhớ, khởi tạo GPU kernel và bắt tay KV cache connector.

Kết quả

Các bảng dưới đây so sánh hiệu suất đa nhà cung cấp (H100 prefill + MI300X decode) và đơn nhà cung cấp (MI300X prefill + MI300X decode). E2EL là độ trễ đầu cuối trung vị tính bằng giây; TPS là tổng thông lượng tính bằng token/giây. E2EL Ratio và TPS Ratio là đa nhà cung cấp / đơn nhà cung cấp — E2EL ratio dưới 1.0 và TPS ratio trên 1.0 cho thấy lợi thế đa nhà cung cấp.

Điểm nhấn: Lợi thế đa nhà cung cấp dưới tải nặng

Dưới các khối lượng công việc đòi hỏi với chuỗi dài và độ đồng thời cao, disaggregation đa nhà cung cấp mang lại cải thiện đáng kể so với baseline đơn nhà cung cấp.

ISL/OSL	CON	Cross E2EL (s)	Single E2EL (s)	E2EL Ratio	Cross TPS	Single TPS	TPS Ratio
8K/1K	256	190.52	256.62	0.74×	12,107	9,030	1.34×
8K/8K	16	119.24	207.67	0.57×	2,190	1,312	1.67×
8K/8K	32	214.75	324.80	0.66×	2,417	1,540	1.57×
Geomean				0.65×			1.52×

Tại ISL 8K / OSL 8K, cấu hình đa nhà cung cấp giảm E2EL 34–43% và tăng thông lượng 57–67% ở mức đồng thời 16–32. Những cải thiện này đến từ việc giao mỗi GPU cho pha suy luận phù hợp nhất với đặc tính phần cứng của nó, kết hợp với lớp giao tiếp quản lý truyền KV cache qua ranh giới nhà cung cấp. Các phần sau trình bày kết quả đầy đủ trên bốn kịch bản ISL/OSL và các mức độ đồng thời khác nhau, cho thấy khi nào và tại sao disaggregation đa nhà cung cấp mang lại lợi thế.

ISL 1024 / OSL 1024

Với cả đầu vào và đầu ra là 1.024 token — khối lượng công việc nhẹ nhất — hai cấu hình cho hiệu suất gần như giống nhau trên mọi mức độ đồng thời.

CON	Cross E2EL (s)	Single E2EL (s)	E2EL Ratio	Cross TPS	Single TPS	TPS Ratio
1	5.32	5.32	1.00×	381	378	1.01×
4	6.42	6.39	1.00×	1,165	1,234	0.94×
8	7.28	7.30	1.00×	2,139	2,175	0.98×
16	9.09	9.24	0.98×	3,402	3,333	1.02×
32	11.66	11.39	1.02×	5,198	5,086	1.02×
Geomean			1.00×			1.00×

Với chỉ 1.024 token đầu vào, prefill hoàn thành nhanh chóng trên cả hai GPU và KV cache mỗi yêu cầu chỉ vài chục MB. Vì cả tính toán prefill và truyền KV cache đều không phải điểm nghẽn, hiệu suất được quyết định gần như hoàn toàn bởi tốc độ decode — vốn giống nhau giữa các cấu hình. Điều này xác nhận rằng hoạt động đa nhà cung cấp không gây ra bất kỳ tổn thất hiệu suất cố hữu nào.

ISL 1024 / OSL 8192

Với đầu vào ngắn nhưng đầu ra dài (8.192 token), pha decode chiếm phần lớn thời gian thực thi. Lợi thế đa nhà cung cấp xuất hiện từ mức đồng thời 4 và mở rộng đều đặn, đạt giảm 29% E2EL và cải thiện 46% thông lượng ở mức đồng thời 32. Chuỗi đầu ra dài 8K khuếch đại hiệu ứng tắc nghẽn phía decode: trong cấu hình đơn nhà cung cấp, các đợt bùng phát KV cache không được kiểm soát qua NIXL connector làm tăng độ trễ giữa các token trong suốt quá trình tạo đầu ra.

CON	Cross E2EL (s)	Single E2EL (s)	E2EL Ratio	Cross TPS	Single TPS	TPS Ratio
1	45.05	44.13	1.02×	204	208	0.98×
4	53.67	58.51	0.92×	686	626	1.10×
8	67.06	74.49	0.90×	1,093	986	1.11×
16	93.82	92.41	1.02×	1,639	1,489	1.10×
32	108.74	152.61	0.71×	2,508	1,722	1.46×
Geomean			0.91×			1.14×

ISL 8192 / OSL 1024

Với đầu vào dài (8.192 token) và đầu ra ngắn, prefill chiếm tỷ lệ lớn hơn trong tổng độ trễ. Ở mức đồng thời thấp (1–16), prefill nhiều hơn bị giới hạn bởi băng thông bộ nhớ, và băng thông 5,3 TB/s của MI300X tạo lợi thế cho cấu hình đơn nhà cung cấp. Điểm giao cắt rõ ràng xảy ra ở mức đồng thời 32: khi prefill chuyển sang giới hạn tính toán, lợi thế của H100 phát huy hiệu quả, và cấu hình đa nhà cung cấp duy trì vị trí dẫn đầu đến mức đồng thời 256 (cải thiện E2EL 26%, thông lượng duy trì trên 12.000 tok/s so với dưới 10.000 tok/s cho đơn nhà cung cấp).

CON	Cross E2EL (s)	Single E2EL (s)	E2EL Ratio	Cross TPS	Single TPS	TPS Ratio
1	6.52	6.02	1.08×	1,409	1,509	0.93×
4	9.00	7.60	1.18×	3,854	4,727	0.82×
8	11.72	9.65	1.21×	6,077	7,095	0.86×
16	17.33	14.62	1.19×	8,794	9,597	0.92×
32	24.93	36.54	0.68×	11,486	8,105	1.42×
64	47.76	57.00	0.84×	11,870	9,978	1.19×
128	101.58	119.45	0.85×	11,224	9,598	1.17×
256	190.52	256.62	0.74×	12,107	9,030	1.34×
Geomean			0.95×			1.06×

ISL 8192 / OSL 8192

Khối lượng công việc nặng nhất kết hợp các hiệu ứng của hai kịch bản trước. Ở mức đồng thời 1, cấu hình đơn nhà cung cấp nhanh hơn một chút nhờ lợi thế băng thông của MI300X ở mức đồng thời thấp. Từ mức đồng thời 8 trở đi, cấu hình đa nhà cung cấp vượt lên rõ rệt — ở mức đồng thời 16–32, nhanh hơn 34–43% về E2EL và thông lượng cao hơn 57–67%. Áp lực kép từ đầu vào dài và đầu ra dài khuếch đại cả lợi thế prefill giới hạn tính toán của H100 và hiệu ứng tắc nghẽn phía decode.

CON	Cross E2EL (s)	Single E2EL (s)	E2EL Ratio	Cross TPS	Single TPS	TPS Ratio
1	52.67	47.88	1.10×	311	342	0.91×
4	73.47	74.77	0.98×	890	927	0.96×
8	87.13	110.40	0.79×	1,595	1,183	1.35×
16	119.24	207.67	0.57×	2,190	1,312	1.67×
32	214.75	324.80	0.66×	2,417	1,540	1.57×
Geomean			0.80×			1.25×

Những phát hiện chính

Trên tất cả bốn kịch bản ISL/OSL, cấu hình đa nhà cung cấp (H100 prefill + MI300X decode) đạt trung bình hình học E2EL ratio 0,92× và TPS ratio 1,10× so với cụm MI300X đơn nhà cung cấp (E2EL ratio dưới 1,0 và TPS ratio trên 1,0 cho thấy lợi thế đa nhà cung cấp). Các kết luận chính là:

Tính khả thi đã được xác nhận: PD disaggregation đa nhà cung cấp giữa GPU NVIDIA và AMD hoạt động đáng tin cậy trên tất cả các khối lượng công việc được thử nghiệm. MoAI Inference Framework trừu tượng hóa sự khác biệt phần cứng, cho phép nhà điều hành kết hợp các nhà cung cấp GPU trong một cụm phục vụ duy nhất mà không bị ràng buộc bởi tương thích.
Hiệu suất ngang nhau ở tải thấp: Với khối lượng công việc nhẹ (1K/1K) và mức đồng thời thấp, hai cấu hình cho hiệu suất gần như giống nhau, xác nhận rằng hoạt động đa nhà cung cấp không gây ra tổn thất hiệu suất cố hữu.
Lợi thế đa nhà cung cấp ở mức đồng thời cao: Với các khối lượng công việc có chuỗi đầu ra dài (1K/8K, 8K/8K) hoặc độ đồng thời cao (8K/1K ở CON ≥ 32), cấu hình đa nhà cung cấp vượt trội hơn cấu hình đơn nhà cung cấp tới 43% về độ trễ và 67% về thông lượng. Hai yếu tố đóng góp: (1) khi độ đồng thời tăng, prefill chuyển sang giới hạn tính toán, và bộ nhớ trên chip lớn hơn của H100 (L1 + shared memory) xử lý các phép tính GEMM dày đặc hiệu quả hơn; (2) việc đệm truyền dựa trên phần mềm của lớp giao tiếp đa nhà cung cấp ngăn chặn tình trạng bão hòa hàng đợi nút decode xảy ra với đường bộ nhớ GPU trực tiếp của NIXL connector.
Thế mạnh phần cứng bổ sung: Ở mức đồng thời thấp, prefill bị giới hạn nhiều hơn bởi băng thông bộ nhớ, và băng thông 5,3 TB/s của MI300X tạo lợi thế. Ở mức đồng thời cao hơn, prefill chuyển sang giới hạn tính toán, và mật độ tính toán của H100 mang lại lợi thế. Bộ nhớ HBM3 192 GB và băng thông cao của MI300X khiến nó luôn phù hợp với pha decode giới hạn băng thông bộ nhớ.
Tối ưu hóa theo khối lượng công việc là rất quan trọng: Đặc điểm hiệu suất thay đổi đáng kể giữa các độ dài chuỗi và mức độ đồng thời — một cấu hình kém hơn ở mức đồng thời thấp có thể dẫn đầu tới 43–67% ở mức đồng thời cao. Để khai thác toàn bộ lợi ích của phần cứng không đồng nhất, cần điều chỉnh động việc giao prefill/decode, chiến lược truyền KV cache và định tuyến yêu cầu dựa trên mẫu khối lượng công việc thời gian thực. MoAI Inference Framework nhắm tự động hóa quá trình tối ưu hóa này, giải phóng nhà điều hành khỏi việc tinh chỉnh thủ công vốn đòi hỏi kiến thức sâu về từng kiến trúc GPU và tương tác khối lượng công việc.

Kết luận

Nghiên cứu này chứng minh rằng các cụm GPU không đồng nhất có thể phục vụ LLM hiệu quả như — và trong nhiều kịch bản hiệu quả hơn — các cấu hình đơn nhà cung cấp. Bằng cách giao GPU NVIDIA H100 cho pha prefill đòi hỏi tính toán và GPU AMD MI300X cho pha decode đòi hỏi băng thông bộ nhớ, MoAI Inference Framework cho phép nhà điều hành trung tâm dữ liệu vượt qua sự ràng buộc đơn nhà cung cấp và thiết kế hạ tầng GPU dựa trên đặc điểm khối lượng công việc thay vì ràng buộc nhà cung cấp.

Dưới các khối lượng công việc đòi hỏi nhất, cấu hình đa nhà cung cấp giảm độ trễ đầu cuối tới 43% và tăng thông lượng tới 67% so với cụm MI300X đơn nhà cung cấp. Đồng thời, kết quả cho thấy đặc điểm hiệu suất thay đổi đáng kể tùy theo độ dài chuỗi và độ đồng thời — cấu hình tốt nhất ở tải nhẹ có thể không tối ưu ở tải nặng và ngược lại. Việc xử lý sự phức tạp này thủ công ở quy mô lớn là không thực tế. MoAI Inference Framework giải quyết vấn đề này bằng cách tự động hóa việc phân bổ tài nguyên GPU theo khối lượng công việc, chiến lược truyền KV cache và định tuyến yêu cầu trên các cụm không đồng nhất, cho phép nhà điều hành thu được lợi ích hiệu suất của disaggregation đa nhà cung cấp mà không cần gánh nặng vận hành của việc tinh chỉnh thủ công liên tục.

Suy luận Disaggregated đa nhà cung cấp: GPT-OSS-120B trên GPU NVIDIA H100 và AMD MI300X