Distributed Inference on Heterogeneous Accelerators Including GPUs, Rubin CPX, and AI Accelerators

Giảm chi phi suy luận hiện đã trở thành một trong những thách thức cốt lõi đối với tất cả các trung tâm dữ liệu AI và công ty dịch vụ. Nhiều kỹ thuật đa dạng đang được phát triển ở mọi tầng — từ GPU kernel đến kiến trúc mô hình — nhằm giảm khối lượng tính toán và cải thiện tỷ lệ sử dụng GPU.

Một trong những chủ đề đáng chú ý nhất là suy luận phân tán ở cấp độ cluster. Trước đây, tối ưu hóa suy luận chủ yếu tập trung vào việc đạt được hiệu suất tốt trên một GPU đơn lẻ hoặc một node đơn lẻ. Ở cấp độ cluster, các yêu cầu chỉ đơn giản được phân phối đều giữa các node bằng load balancer. Tuy nhiên, hiện nay người ta nhận ra rằng cách thức phân phối mô hình và yêu cầu trên nhiều node GPU có tác động quyết định đến tỷ lệ sử dụng GPU tổng thể. Bằng cách áp dụng hiệu quả các kỹ thuật suy luận phân tán như disaggregation và smart routing, có thể tăng khả năng xử lý đồng thời của một hạ tầng cho trước lên 2-10 lần. Điều này giúp giảm đáng kể chi phí dịch vụ AI, tức là chi phí trên mỗi token.

Per-node inference and distributed inference. — Suy luận theo node và suy luận phân tán.

Tại sao suy luận phân tán quan trọng ngay lúc này

Lý do chính khiến suy luận phân tán trở nên quan trọng là sự đa dạng ngày càng tăng của các khối lượng công việc suy luận mà trung tâm dữ liệu AI phải xử lý. Các LLM nền tảng ngày càng lớn hơn và phức tạp hơn. Đặc biệt, khi các mô hình Mixture of Experts (MoE) như DeepSeek R1 và GPT-OSS ngày càng phổ biến, model disaggregation đã bắt đầu đóng vai trò quan trọng trong hiệu suất. DeepSeek đã công bố kiến trúc phần mềm phục vụ mô hình MoE 671B với chi phí thấp thông qua Expert Parallelism (EP) xuyên node hiệu quả.

Khi các ứng dụng yêu cầu suy luận ngữ cảnh dài — như trợ lý lập trình AI — tiếp tục phát triển, độ dài chuỗi của mỗi yêu cầu đến trở nên rất biến thiên. Các giai đoạn prefill và decode, mỗi giai đoạn có đặc tính hiệu suất khác nhau, đều trở thành yếu tố quan trọng ảnh hưởng đến hiệu suất tổng thể. Điều này khiến việc phân bổ số lượng GPU phù hợp cho các giai đoạn prefill và decode, áp dụng các chiến lược song song hóa và tối ưu hóa khác nhau cho từng giai đoạn, và lập lịch yêu cầu khác nhau cho từng giai đoạn ngày càng trở nên quan trọng. Ngoài ra, tỷ lệ hit KV cache giờ đây cũng là yếu tố then chốt trong hiệu suất tổng thể.

Cuối cùng, các quy trình agent đa mô hình — trong đó nhiều mô hình đa phương thức được gọi động tùy theo tình huống — ngày càng phổ biến. Do đó, việc phân bổ GPU hiệu quả giữa các mô hình khác nhau và đảm bảo mục tiêu cấp độ dịch vụ (SLO) cho nhiều ứng dụng đa dạng đã trở thành một bài toán khó. Các trung tâm dữ liệu đối mặt với nhiệm vụ khó khăn trong việc tối ưu hóa các chỉ số mâu thuẫn — như cải thiện throughput, giảm độ trễ, và đảm bảo công bằng — đồng thời cố gắng hiểu các đặc tính hiệu suất của phần cứng GPU phức tạp.

MoAI Inference Framework

Suy luận phân tán không đơn giản chỉ là áp dụng các kỹ thuật disaggregation và routing riêng lẻ, như prefill-decode, expert parallelization, KV cache aware routing, v.v. Thách thức lớn hơn nằm ở việc kết hợp hiệu quả nhiều kỹ thuật để đạt được cải thiện hiệu suất có ý nghĩa trên một hệ thống cụ thể. Mặc dù nhiều dự án mã nguồn mở hiện nay hỗ trợ các kỹ thuật suy luận phân tán riêng lẻ, việc tích hợp và triển khai chúng trong hạ tầng thực tế vẫn phụ thuộc vào nỗ lực thủ công.

Là giải pháp, Moreh giới thiệu MoAI Inference Framework. Framework này được thiết kế để cho phép suy luận phân tán hiệu quả trên các hệ thống cluster không chỉ bao gồm NVIDIA GPU mà còn cả AMD GPU và Tenstorrent AI accelerator. Tận dụng cost model độc đáo, framework tự động xác định, áp dụng và điều chỉnh động các cách tối ưu để sử dụng nhiều accelerator trong trung tâm dữ liệu. Nó mang lại tốc độ suy luận nhanh hơn, tỷ lệ sử dụng tài nguyên cao hơn và hiệu quả chi phí tốt hơn cùng lúc, ngay cả trong các môi trường khối lượng công việc AI phức tạp nhất hiện nay.

Kết hợp các Accelerator không đồng nhất trong trung tâm dữ liệu AI

Là hệ quả logic của tầm quan trọng ngày càng tăng của suy luận phân tán, nhiều trung tâm dữ liệu AI sẽ tìm cách tối đa hóa hiệu quả tính toán tổng thể bằng cách kết hợp các loại accelerator khác nhau. Điều này hoàn toàn tự nhiên, vì không có accelerator đơn lẻ nào có thể tối ưu cho tất cả các khối lượng công việc suy luận đa dạng. Ví dụ, accelerator tối ưu có thể khác nhau giữa giai đoạn prefill và decode, giữa chuỗi đầu vào ngắn và dài, và giữa mô hình ngôn ngữ và mô hình tạo video.

Thông báo gần đây của NVIDIA về Rubin CPX cũng phù hợp với xu hướng này. Chip này nhấn mạnh hiệu suất tính toán hơn băng thông bộ nhớ, sử dụng bộ nhớ GDDR7 thay vì HBM. Cụ thể, băng thông bộ nhớ chỉ là 2 TB/s — chỉ 10% so với Rubin GPU (VR200) cung cấp 20.5 TB/s. Tuy nhiên, hiệu suất FP4 đạt 20.0 PFLOPS, khoảng 60% so với 33.3 PFLOPS của Rubin GPU.

NVIDIA's Vera Rubin NVL144 CPX system containing 72 Rubin GPUs and 144 Rubin CPX. (Source: NVIDIA Newsroom) — Hệ thống Vera Rubin NVL144 CPX của NVIDIA chứa 72 Rubin GPU và 144 Rubin CPX. (Nguồn: NVIDIA Newsroom)

Các hệ thống cluster như Vera Rubin NVL144 CPX của NVIDIA, tích hợp cả CPX và GPU, có thể tận dụng sự khác biệt hiệu suất này theo nhiều cách. Cơ bản nhất, trong suy luận LLM, giai đoạn prefill nặng về tính toán có thể được thực hiện trên CPX trong khi giai đoạn decode nặng về bộ nhớ chạy trên GPU — đây là trường hợp sử dụng mà NVIDIA đã công bố cho CPX. Ngoài ra còn có nhiều khả năng khác. Ví dụ, các mô hình tạo video tương đối nặng về tính toán có thể được thực thi trên CPX trong khi các mô hình ngôn ngữ nặng về bộ nhớ chạy trên GPU. Hoặc, trong cùng một mô hình, có thể xem xét việc chuyển các lớp FFN sang CPX trong khi chạy các lớp Attention trên GPU, mở rộng kỹ thuật Attention-FFN disaggregation. Một cách tiếp cận khác là chủ yếu dựa vào GPU cho kích thước batch nhỏ nhưng phân bổ nhiều công việc hơn cho CPX khi kích thước batch tăng lên.

Ngoài sự kết hợp GPU và CPX của NVIDIA, nhiều cấu hình khác để xây dựng cluster không đồng nhất có thể được xem xét. Ví dụ, việc kết hợp hai thế hệ NVIDIA GPU khác nhau là thực tiễn phổ biến trong các trung tâm dữ liệu quy mô lớn. Một lựa chọn khác là kết hợp NVIDIA GPU với AMD GPU. Điều này không chỉ giúp tránh phụ thuộc vào một nhà cung cấp phần cứng duy nhất, mà còn tận dụng thực tế rằng AMD GPU thường mang lại hiệu suất tốt hơn NVIDIA GPU cùng thế hệ trên các khối lượng công việc nặng về bộ nhớ. Hơn nữa, GPU cũng có thể kết hợp với Tenstorrent AI accelerator. Các bộ xử lý Tenstorrent Wormhole và Blackhole sử dụng bộ nhớ GDDR6 và, tương tự như CPX, phù hợp cho các khối lượng công việc nặng về tính toán.

Thách thức phần mềm trong suy luận phân tán trên Accelerator không đồng nhất

Tuy nhiên, hiện thực hóa điều này trong thực tế đi kèm với những thách thức phần mềm đáng kể. Tính toán phải được tối ưu hóa đầy đủ cho các kiến trúc accelerator khác nhau. Cần phải kích hoạt giao tiếp băng thông cao, độ trễ thấp giữa các accelerator không đồng nhất. Mặc dù giao tiếp RDMA giữa các thiết bị từ các nhà cung cấp khác nhau là khả thi về mặt vật lý, nó đối mặt với nhiều rào cản ở cấp độ phần mềm.

Quan trọng nhất, thách thức lớn nhất nằm ở việc disaggregation mô hình hiệu quả, phân phối khối lượng công việc và mở rộng quy mô trên các accelerator không đồng nhất. Đơn giản chia hai khối lượng công việc cho hai loại accelerator là không đủ để đạt được hiệu quả thực sự. Ví dụ, CPX và GPU được lắp đặt theo tỷ lệ 2:1 trong hệ thống cluster Vera Rubin NVL144. Nhưng tỷ lệ giữa giai đoạn prefill và decode không cố định và cũng không được đảm bảo chính xác là 2 CPX : 1 GPU. Nếu không có phân bổ tài nguyên động ở cấp phần mềm, tài nguyên nhàn rỗi chắc chắn sẽ phát sinh. Vấn đề trở nên phức tạp hơn khi nhiều mô hình đa phương thức phải được phục vụ đồng thời.

MoAI Inference Framework thể hiện giá trị đầy đủ trong các môi trường accelerator không đồng nhất. Với suy luận phân tán tự động dựa trên cost model, nó có thể sử dụng các accelerator không đồng nhất cùng nhau một cách động và hiệu quả. Framework cũng bao gồm một thư viện giao tiếp cho phép giao tiếp RDMA giữa phần cứng từ các nhà cung cấp khác nhau được kết nối qua mạng RoCE. Moreh vLLM là backend của MoAI Inference Framework và tích hợp các tối ưu hóa ở cấp thư viện và cấp mô hình cho AMD GPU và Tenstorrent AI accelerator, khai phóng toàn bộ tiềm năng của chúng và cho phép hiệu suất tương đương hoặc thậm chí vượt trội so với NVIDIA GPU.

Nghiên cứu điển hình: Disaggregation giữa AMD MI300X và MI308X GPU

Chúng tôi trình bày một trường hợp thực tế áp dụng suy luận phân tán trên các accelerator không đồng nhất sử dụng MoAI Inference Framework. MI308X GPU của AMD là biến thể của MI300X GPU gốc. Mặc dù băng thông bộ nhớ của MI308X giống MI300X ở mức 5.3 TB/s, hiệu suất tính toán FP8 chỉ là 0.47 PFLOPS — chỉ 18% so với 2.6 PFLOPS của MI300X. Tương tự như mối quan hệ giữa GPU và CPX, sự khác biệt hiệu suất này khiến MI300X có lợi thế hơn cho giai đoạn prefill nặng về tính toán, trong khi MI308X hiệu quả hơn cho giai đoạn decode nặng về bộ nhớ.

An example of the prefill-decode disaggregation between AMD MI300X and MI308X GPUs. In the output throughput experiments, input length = 31744, output length = 1024, with concurrency = 8 for single-server tests and concurrency = 24 for the cluster-level test. — Ví dụ về prefill-decode disaggregation giữa AMD MI300X và MI308X GPU. Trong các thí nghiệm output throughput, input length = 31744, output length = 1024, với concurrency = 8 cho các bài test đơn server và concurrency = 24 cho bài test cấp cluster.

Chúng tôi đã áp dụng prefill-decode disaggregation với MoAI Inference Framework trên một cluster gồm một server MI300X (8 GPU mỗi server) và hai server MI308X (8 GPU mỗi server). Khi chạy mô hình DeepSeek R1 671B end-to-end mà không có disaggregation, server MI300X đạt output throughput 105.16 tokens/sec, trong khi server MI308X đạt 30.42 tokens/sec. Nếu các server này chỉ đơn giản được kết nối bằng load balancer, tổng output throughput của cluster chỉ là 166.00 tokens/sec. Tuy nhiên, bằng cách thực thi riêng biệt giai đoạn prefill trên server MI300X và giai đoạn decode trên các server MI308X, tổng output throughput tăng lên 253.59 tokens/sec, đại diện cho mức cải thiện khoảng 53%.

Kết luận

Sự xuất hiện của kỷ nguyên AI đa phương thức và Agentic đòi hỏi phải xem xét lại một cách căn bản các hệ thống suy luận đơn mô hình, đơn server truyền thống. Đồng thời, thông báo của NVIDIA về bộ xử lý Rubin CPX đã thu hút sự chú ý đến các kỹ thuật suy luận phân tán tận dụng accelerator không đồng nhất theo đặc tính hiệu suất của chúng.

MoAI Inference Framework là lựa chọn tốt nhất để triển khai suy luận phân tán trong các trung tâm dữ liệu AI thực tế. Nó mang lại hiệu suất tối ưu trên các accelerator không phải NVIDIA bao gồm AMD GPU và bộ xử lý Tenstorrent, đồng thời tự động hóa nhiệm vụ khó khăn và phức tạp của việc phân phối (một phần) mô hình và khối lượng công việc trên các accelerator không đồng nhất.