TIDE: Temporal Incremental Draft Engine for Self-Improving LLM Inference

Tóm tắt

Speculative decoding có thể tăng tốc đáng kể quá trình suy luận LLM, nhưng việc hiện thực hóa lợi ích của nó trong thực tế là thách thức do khối lượng công việc thay đổi và các ràng buộc ở cấp hệ thống. Chúng tôi trình bày TIDE (Temporal Incremental Draft Engine), một framework tích hợp sẵn trong serving engine, tích hợp trực tiếp việc thích ứng draft trực tuyến vào các hệ thống suy luận LLM hiệu suất cao. TIDE tái sử dụng hidden state của target model được tạo ra trong quá trình suy luận làm tín hiệu huấn luyện, cho phép thích ứng draft không tốn chi phí mà không cần tải lại target model, đồng thời sử dụng điều khiển runtime thích ứng để chỉ kích hoạt speculation và huấn luyện khi có lợi. TIDE khai thác các cụm máy không đồng nhất bằng cách ánh xạ suy luận và huấn luyện tách rời đến các lớp GPU phù hợp. Trên các khối lượng công việc thực tế đa dạng, TIDE đạt được cải thiện thông lượng lên đến 1.15× so với speculative decoding tĩnh, đồng thời giảm thời gian huấn luyện draft 1.67× so với các phương pháp tính toán lại tín hiệu huấn luyện.

Figure 1: Tổng quan kiến trúc và quy trình làm việc của TIDE.

1. Giới thiệu

Các mô hình ngôn ngữ lớn (LLM) ngày càng đạt được hiệu suất tiên tiến nhất bằng cách mở rộng tính toán tại thời điểm kiểm thử, đặc biệt cho các tác vụ đòi hỏi suy luận chuyên sâu như toán học và sinh mã (Snell et al., 2024; Muennighoff et al., 2025). Do đó, hiệu quả suy luận đã trở thành nút thắt cổ chai trung tâm cho việc triển khai các LLM hướng suy luận hiện đại trong các hệ thống thực tế.

Speculative decoding là một trong những kỹ thuật hiệu quả nhất để tăng tốc suy luận LLM. Bằng cách cho phép một draft model nhẹ đề xuất nhiều token sau đó được target model xác minh theo lô, speculative decoding có thể cải thiện đáng kể thông lượng và độ trễ khi draft model và target model được căn chỉnh tốt (Leviathan et al., 2023; Chen et al., 2023). Tuy nhiên, hiệu quả của nó rất nhạy cảm với sự căn chỉnh draft–target: khi sự căn chỉnh suy giảm, tỷ lệ chấp nhận giảm mạnh và speculative decoding mang lại ít hoặc không có cải thiện hiệu suất.

Một thách thức cơ bản là sự căn chỉnh draft–target vốn phụ thuộc vào khối lượng công việc. Trong các dịch vụ LLM sản xuất, khối lượng công việc suy luận thay đổi liên tục khi hành vi người dùng thay đổi, logic ứng dụng được cập nhật và mẫu prompt được sửa đổi. Mặc dù khối lượng công việc là không dừng trên toàn cục, các nghiên cứu trước đó cho thấy chúng thể hiện tính địa phương thời gian ngắn hạn mạnh, với lịch sử suy luận gần đây vẫn có khả năng dự đoán các yêu cầu trong tương lai gần (Wang et al., 2024; Gim et al., 2024; Zheng et al., 2024a; Xiang et al., 2025). Điều này gợi ý rằng sự căn chỉnh có thể được duy trì bằng cách thích ứng với hành vi suy luận gần đây, ngay cả khi phân phối dài hạn thay đổi.

Các nghiên cứu gần đây đã khám phá cơ hội này bằng cách thích ứng draft model trực tuyến sử dụng các tín hiệu tại thời điểm suy luận, ví dụ thông qua chưng cất trực tuyến từ các hiệu chỉnh hoặc logit của target model (Zhou et al., 2024; Yan et al., 2025). Mặc dù các phương pháp này chứng minh rằng sự căn chỉnh có thể được phục hồi dưới sự dịch chuyển phân phối, chúng chủ yếu tập trung vào bản thân thuật toán học tập. Liệu huấn luyện draft trực tuyến có thể được tích hợp vào các engine suy luận hiệu suất cao theo cách mang lại cải thiện thông lượng end-to-end bền vững hay không vẫn là một câu hỏi mở ở cấp hệ thống.

Trong thực tế, giải quyết câu hỏi này đòi hỏi sự phối hợp cẩn thận giữa học tập và serving. Huấn luyện draft trực tuyến phải gây can thiệp tối thiểu đến suy luận nhạy cảm với độ trễ, hoạt động dưới các ràng buộc tài nguyên thực tế, và chỉ thích ứng khi có lợi. Vì tác động hiệu suất của speculative decoding thay đổi theo các giai đoạn khối lượng công việc, speculation hoặc huấn luyện liên tục thường không cần thiết và thậm chí có thể phản tác dụng. Do đó, việc triển khai hiệu quả đòi hỏi kiểm soát runtime động về thời điểm speculation và thời điểm huấn luyện, chỉ dựa trên các tín hiệu có thể quan sát được trong quá trình serving suy luận.

Để giải quyết những thách thức này, chúng tôi giới thiệu Temporal Incremental Draft Engine (TIDE), một framework tích hợp sẵn trong serving engine cho speculative decoding thích ứng dưới các khối lượng công việc thay đổi. Thay vì coi thích ứng draft là một bài toán học tập riêng biệt, TIDE quản lý thống nhất việc thu thập tín hiệu huấn luyện, cập nhật draft model và các quyết định speculative decoding hoàn toàn trong serving engine suy luận.

TIDE khai thác tính địa phương thời gian ngắn hạn bằng cách thích ứng gia tăng draft model dựa trên hành vi suy luận gần đây, đồng thời kiểm soát động khi nào speculative decoding và huấn luyện có lợi. Quan trọng là, TIDE tạo dữ liệu huấn luyện không tốn thêm chi phí suy luận bằng cách tái sử dụng các biểu diễn hidden trung gian đã được target model tính toán trong quá trình xác minh, loại bỏ nhu cầu tải lại hoặc tính toán lại các activation của target model trong quá trình huấn luyện.

Cuối cùng, TIDE tách rời serving suy luận và huấn luyện draft để cho phép triển khai hiệu quả dưới các ràng buộc phần cứng thực tế. Trong đánh giá của chúng tôi, chúng tôi chứng minh rằng serving suy luận trên NVIDIA H100 GPU có thể được kết hợp với huấn luyện draft model trên AMD Instinct MI250 GPU, cải thiện thông lượng hệ thống tổng thể trong khi duy trì hiệu suất speculative decoding cao.

Tóm lại, các đóng góp chính của chúng tôi là:

Chúng tôi đề xuất TIDE, một framework tích hợp sẵn trong serving engine cho speculative decoding thích ứng, duy trì gia tăng sự căn chỉnh draft–target dưới các khối lượng công việc suy luận không dừng.
Chúng tôi cho phép tạo dữ liệu huấn luyện không tốn chi phí bằng cách tái sử dụng các hidden state trung gian được tính toán trong quá trình suy luận, cho phép huấn luyện draft hiệu quả mà không cần tải target model lớn.
Chúng tôi giới thiệu các cơ chế kiểm soát runtime thích ứng xác định khi nào speculation và khi nào huấn luyện, tránh chi phí không cần thiết trong các điều kiện khối lượng công việc bất lợi.
Chúng tôi chứng minh việc sử dụng GPU không đồng nhất hiệu quả bằng cách tách rời suy luận và huấn luyện, chạy suy luận trên NVIDIA H100 GPU và huấn luyện draft trên AMD MI250 GPU.
Chúng tôi triển khai một nguyên mẫu TIDE hoàn chỉnh và cho thấy cải thiện thông lượng cấp hệ thống nhất quán trên các mẫu khối lượng công việc thực tế đa dạng.

5. Đánh giá

5.5. Phân bổ GPU không đồng nhất

Chúng tôi đánh giá lợi ích hiệu suất của TIDE khi triển khai trên các cụm GPU không đồng nhất với khả năng tính toán khác nhau. Figure 11 trình bày so sánh thông lượng cho suy luận và huấn luyện draft model trên các loại GPU khác nhau, được chuẩn hóa theo baseline MI250. Kết quả cho thấy khoảng cách thông lượng không tương xứng giữa các khối lượng công việc suy luận và huấn luyện. Đối với suy luận, H100 đạt thông lượng cao hơn 6.76× so với MI250, với MI300X ở mức 4.42×. Tuy nhiên, đối với huấn luyện, khoảng cách nhỏ hơn nhiều: H100 chỉ cải thiện 2.44× so với MI250, với MI300X ở mức 1.77×. Sự chênh lệch này thúc đẩy chiến lược phân bổ tài nguyên không đồng nhất của TIDE, trong đó các GPU cấp thấp hơn như MI250 đóng góp hiệu quả hơn cho huấn luyện trong khi các GPU cấp cao hơn xử lý khối lượng công việc suy luận.

Figure 11: So sánh thông lượng trên mỗi GPU cho suy luận và huấn luyện draft model, chuẩn hóa theo baseline MI250. Thông lượng suy luận được đo trên gpt-oss-120b với tập dữ liệu ShareGPT sử dụng SGLang. Thông lượng huấn luyện được đo trên các nút đơn với 8 thiết bị GPU sử dụng PyTorch với song song hóa FSDP.

Để định lượng lợi ích của phương pháp này, chúng tôi đánh giá TIDE trên bốn tập dữ liệu đa dạng, so sánh hai chiến lược phân bổ tài nguyên: (1) tất cả GPU thực hiện suy luận với speculative decoding bị vô hiệu hóa, và (2) TIDE phân bổ một nút MI250 đơn với 4 GPU cho huấn luyện draft model trong khi một nút H100 đơn với 8 GPU xử lý suy luận. Figure 10 cho thấy TIDE đạt được cải thiện thông lượng 1.08–1.22× so với baseline toàn suy luận. Sự cải thiện tương quan với tốc độ tăng speculative decoding đạt được thông qua huấn luyện draft model, dao động từ s=1.15 (ShareGPT, 1.08× thông lượng) đến s=1.30 (Science, 1.22× thông lượng). Những biến động này phản ánh sự khác biệt trong đặc tính phân phối đầu ra và độ khó học tập của draft model giữa các tập dữ liệu. Ví dụ, đầu ra có cấu trúc hơn của tập dữ liệu Science cho phép draft model học tốt hơn, dẫn đến tỷ lệ chấp nhận cao hơn và tốc độ tăng lớn hơn. Kết quả này chứng minh rằng lợi ích của TIDE thay đổi theo đặc tính tập dữ liệu và nhấn mạnh tầm quan trọng của việc xem xét các thuộc tính khối lượng công việc khi triển khai các chiến lược huấn luyện không đồng nhất.

Figure 10: So sánh thông lượng tương đối giữa baseline toàn suy luận và TIDE trên bốn tập dữ liệu sử dụng một nút MI250 đơn với 4 GPU cho huấn luyện draft model và một nút H100 đơn với 8 GPU cho suy luận. Giá trị trong ngoặc đơn cho biết tốc độ tăng speculative decoding (s) đạt được thông qua huấn luyện draft model trên mỗi tập dữ liệu.

Vui lòng đọc toàn bộ bài báo trên arXiv.

TIDE: Temporal Incremental Draft Engine cho suy luận LLM tự cải thiện

Tóm tắt

1. Giới thiệu

5. Đánh giá

5.5. Phân bổ GPU không đồng nhất