Runtime Draft Model Training: Adapting Speculative Decoding to Real-World Workloads

Tổng quan

Giảm chi phí suy luận đã trở thành ưu tiên hàng đầu đối với các trung tâm dữ liệu AI và nhà cung cấp dịch vụ khi các mô hình ngôn ngữ lớn (LLM) tiếp tục mở rộng về quy mô và độ phức tạp. Chi phí tính toán để phục vụ các mô hình này ở quy mô lớn thúc đẩy nhu cầu về các kỹ thuật tối ưu hóa hiệu quả có thể mang lại tiết kiệm chi phí đáng kể mà không ảnh hưởng đến chất lượng mô hình.

Nhiều phương pháp tiếp cận đã xuất hiện để giải quyết vấn đề tối ưu hóa suy luận, bao gồm disaggregation, định tuyến nhận biết KV cache, định tuyến test-time, quantization, speculative decoding và nhiều phương pháp khác. Trong số các kỹ thuật này, speculative decoding đã nhận được sự quan tâm đáng kể từ các nhà cung cấp dịch vụ đám mây lớn (CSP) nhờ những ưu điểm độc đáo: đảm bảo bảo toàn chất lượng mô hình đồng thời có thể kết hợp với các phương pháp tối ưu hóa khác, và mang lại cải thiện hiệu suất trong hầu hết các tình huống thực tế.

Speculative decoding tăng tốc suy luận bằng cách sử dụng một mô hình nhỏ và nhanh (gọi là draft model) để tạo các draft token, sau đó được mô hình gốc (gọi là target model) xác minh song song. Phương pháp này về cơ bản hiệu quả hơn so với việc tạo token tuần tự chỉ với target model.

Figure 1: So sánh thời gian thực thi giữa speculative decoding và decoding tiêu chuẩn.

Hình trên minh họa dòng thời gian tạo 10 token sử dụng speculative decoding với 4 draft token so với decoding tiêu chuẩn. Ngay cả khi trung bình chỉ có 2 draft token được chấp nhận, speculative decoding vẫn đạt được tốc độ tăng khoảng 2 lần.

Sự cải thiện hiệu quả này có thể thực hiện được vì thời gian cần thiết để target model xác minh nhiều token song song gần như bằng với thời gian cần để tạo một token duy nhất. Điều này xảy ra vì suy luận LLM chủ yếu bị giới hạn bởi bộ nhớ chứ không phải bởi tính toán — nút thắt cổ chai nằm ở việc tải trọng số mô hình từ bộ nhớ, không phải ở phép tính thực tế. Cho dù xác minh một token hay nhiều token đồng thời, target model đều phải tải cùng một bộ trọng số, dẫn đến độ trễ tương tự. Bằng cách phân bổ chi phí truy cập bộ nhớ này cho nhiều lần xác minh token, speculative decoding giảm đáng kể tổng số forward pass tốn kém của target model cần thiết để tạo một chuỗi.

Tuy nhiên, các phương pháp speculative decoding truyền thống đối mặt với một hạn chế chính: draft model thường được huấn luyện trước trên các workload tổng quát có thể không phù hợp với phân phối lưu lượng sản xuất thực tế. Vì phân phối workload khác nhau đáng kể giữa các dịch vụ và thay đổi theo thời gian ngay cả trong cùng một dịch vụ, draft model được huấn luyện trên dữ liệu tổng quát thường mang lại hiệu suất chưa tối ưu cho các trường hợp sử dụng chuyên biệt hoặc thay đổi.

Temporal Incremental Draft Engine (TIDE) cho suy luận LLM tự cải thiện

TIDE giải quyết thách thức này thông qua huấn luyện draft model trong thời gian chạy. TIDE sử dụng SGLang làm công cụ suy luận, tận dụng SpecForge để huấn luyện draft model, và dựa trên kỹ thuật speculative decoding EAGLE3. Bằng cách liên tục điều chỉnh draft model dựa trên workload dịch vụ trực tiếp, TIDE tự động cải thiện hiệu suất suy luận mà không cần can thiệp thủ công.

EAGLE3: Huấn luyện Draft Model từ Hidden State

EAGLE3 áp dụng một cách tiếp cận độc đáo cho việc huấn luyện draft model. Khác với các draft model truyền thống hoạt động như mô hình ngôn ngữ độc lập, draft model của EAGLE3 nhận hidden state từ nhiều lớp trung gian của target model làm đầu vào và học cách dự đoán phân phối đầu ra của target model.

Thiết kế hệ thống TIDE

Kiến trúc của TIDE được thiết kế để tích hợp liền mạch quá trình huấn luyện trong thời gian chạy vào hệ thống suy luận sản xuất đồng thời giảm thiểu chi phí phụ và độ phức tạp.

1. Công cụ suy luận với ghi nhật ký Hidden State

Công cụ suy luận (SGLang) thực hiện các phép tính prefill và decoding tiêu chuẩn để phục vụ yêu cầu của người dùng. Quan trọng là, trong các hoạt động này, nó thu thập và lưu trữ hidden state từ các lớp trung gian của target model vào bộ nhớ. Các hidden state này đại diện cho các biểu diễn nội bộ được tính toán trong quá trình suy luận sản xuất thực tế và phục vụ như dữ liệu huấn luyện cho draft model.

2. Huấn luyện và cập nhật mô hình

Khi công cụ suy luận tiếp tục phục vụ các yêu cầu, hidden state tích lũy trong bộ nhớ. Khi đã thu thập đủ lượng dữ liệu — đại diện cho một mẫu có ý nghĩa của phân phối workload hiện tại — quá trình huấn luyện được kích hoạt tự động. Công cụ huấn luyện sau đó tải các hidden state tích lũy và huấn luyện EAGLE3 draft model để dự đoán tốt hơn phân phối đầu ra của target model dựa trên workload gần đây. Sau khi huấn luyện hội tụ, draft model cập nhật được triển khai lại cho công cụ suy luận, thay thế phiên bản trước đó. Điều này hoàn thành một chu kỳ thích ứng, và quá trình tiếp tục khi hidden state mới tích lũy, đảm bảo sự thích ứng liên tục với các mẫu workload đang phát triển.

Kiến trúc này giải quyết một cách tinh tế các thách thức chính của huấn luyện trong thời gian chạy:

Chi phí phụ suy luận gần bằng không: Ghi nhật ký hidden state chạy bất đồng bộ với các phép tính suy luận, cho phép chi phí phụ được ẩn gần như hoàn toàn và hầu như không thêm độ trễ vào việc phục vụ yêu cầu.
Huấn luyện bất đồng bộ: Huấn luyện diễn ra độc lập với suy luận, do đó không chặn hoặc làm chậm việc phục vụ yêu cầu.
Thích ứng tự động: Toàn bộ chu kỳ chạy tự động mà không cần can thiệp thủ công, liên tục thích ứng với sự thay đổi workload.
Hiệu quả tài nguyên: Trong các hệ thống GPU không đồng nhất, huấn luyện có thể được chuyển sang phần cứng khác trong khi GPU hiệu suất cao tập trung vào suy luận.

Sự đơn giản và tự động hóa của kiến trúc này làm cho nó phù hợp để triển khai sản xuất, nơi mà việc tinh chỉnh và can thiệp thủ công tốn kém và không thực tế.

Đánh giá

Để đánh giá hiệu quả của huấn luyện draft model trong thời gian chạy, chúng tôi so sánh hiệu suất của TIDE với draft model tĩnh được huấn luyện trước trên dữ liệu tổng quát. Chúng tôi sử dụng bộ dữ liệu dbdu/ShareGPT-74k-ko để đánh giá, đại diện cho các truy vấn hội thoại tiếng Hàn và cung cấp một nền tảng thử nghiệm thực tế cho việc thích ứng theo workload cụ thể. Thí nghiệm sử dụng lmsys/gpt-oss-120b-bf16 làm target model với lmsys/EAGLE3-gpt-oss-120b-bf16 làm draft model huấn luyện trước cơ sở, với suy luận chạy trên GPU AMD MI300X hoặc NVIDIA H100 và huấn luyện draft model được thực hiện trên GPU AMD MI250, chứng minh khả năng tận dụng hiệu quả tài nguyên GPU không đồng nhất của TIDE.

Figure 3: So sánh tốc độ tăng giữa draft model huấn luyện trước tĩnh và TIDE ở các mức đồng thời khác nhau.

Như thể hiện trong Figure 3, TIDE đạt được cải thiện tốc độ thông lượng token đầu ra từ 1.14× đến 1.35× so với draft model huấn luyện trước, tùy thuộc vào mức đồng thời.

Figure 4: Thông lượng đầu ra theo thời gian cho draft model tĩnh so với TIDE tại concurrency = 1.

Figure 4 minh họa một lợi thế quan trọng của huấn luyện trong thời gian chạy: thông lượng cải thiện khi TIDE tiếp tục học từ workload. Draft model huấn luyện trước duy trì thông lượng tương đối ổn định trong suốt thí nghiệm, vì hiệu suất của nó được cố định bởi quá trình huấn luyện trước. Ngược lại, TIDE cho thấy sự cải thiện dần dần về thông lượng khi nó thích ứng với các mẫu cụ thể trong bộ dữ liệu hội thoại tiếng Hàn.

Để hiểu rõ hơn cơ chế đằng sau sự cải thiện hiệu suất của TIDE, chúng tôi phân tích cách acceptance length — số lượng draft token được target model chấp nhận trong mỗi bước xác minh — thay đổi theo thời gian ở các mức đồng thời khác nhau.

Figure 5: Acceptance length theo thời gian ở các mức đồng thời khác nhau.

Figure 5 cho thấy một đặc điểm quan trọng của huấn luyện trong thời gian chạy: mức đồng thời cao hơn dẫn đến sự cải thiện nhanh hơn về acceptance length. Điều này xảy ra vì:

Tích lũy dữ liệu nhanh hơn: Ở mức đồng thời cao hơn, nhiều yêu cầu được xử lý đồng thời, cho phép TIDE thu thập dữ liệu huấn luyện với tốc độ nhanh hơn. Điều này tăng tốc quá trình học và cho phép thích ứng nhanh hơn với phân phối workload.
Cập nhật mô hình thường xuyên hơn: Với nhiều mẫu huấn luyện có sẵn hơn trong mỗi đơn vị thời gian, draft model có thể được cập nhật thường xuyên hơn với các lô có ý nghĩa thống kê, dẫn đến hội tụ nhanh hơn và phạm vi bao phủ mẫu rộng hơn.

Kết luận

TIDE chứng minh rằng huấn luyện draft model trong thời gian chạy có thể cải thiện đáng kể hiệu suất speculative decoding trong môi trường sản xuất. Các thí nghiệm trên bộ dữ liệu hội thoại tiếng Hàn cho thấy tốc độ thông lượng token đầu ra tăng từ 1.14× đến 1.35× so với draft model huấn luyện trước tĩnh, với hiệu suất liên tục cải thiện khi hệ thống thích ứng với workload trực tiếp.

Ngoài những cải thiện về hiệu suất, TIDE mang lại những lợi thế hấp dẫn trong các hệ thống GPU không đồng nhất. Bằng cách tận dụng các tài nguyên nhàn rỗi hoặc được tối ưu hóa cho huấn luyện — như các thế hệ GPU cũ hơn hoặc phần cứng chưa được sử dụng hết — cho huấn luyện draft model trong khi dành GPU hiệu suất cao cho suy luận, TIDE đồng thời cải thiện cả hiệu suất sử dụng tài nguyên và hiệu quả suy luận. Điều này mang lại tỷ lệ chi phí-hiệu suất tổng thể tốt hơn ở cấp độ hệ thống.

Để tích hợp liền mạch huấn luyện trong thời gian chạy vào hệ thống suy luận sản xuất, chúng tôi đã đóng góp cho các dự án mã nguồn mở, giúp khả năng của TIDE tiếp cận cộng đồng rộng lớn hơn:

SpecForge: PR#1, PR#2
SGLang: PR#3

Khi các workload AI tiếp tục đa dạng hóa và phát triển, các hệ thống như TIDE tự động thích ứng với các mẫu thay đổi sẽ ngày càng trở nên thiết yếu để duy trì suy luận hiệu quả và tiết kiệm chi phí ở quy mô lớn.

Huấn luyện Draft Model trong thời gian chạy: Điều chỉnh Speculative Decoding cho workload thực tế