TIDE: Temporal Incremental Draft Engine for Self-Improving LLM Inference

초록

Speculative decoding은 LLM 추론을 크게 가속할 수 있지만, 변화하는 워크로드와 시스템 수준의 제약 조건으로 인해 실제 환경에서 그 이점을 실현하기는 어렵습니다. 본 논문에서는 고성능 LLM 추론 시스템에 온라인 draft 적응을 직접 통합하는 서빙 엔진 네이티브 프레임워크인 TIDE(Temporal Incremental Draft Engine)를 제안합니다. TIDE는 추론 중 생성된 target 모델의 hidden state를 학습 신호로 재사용하여, target 모델을 다시 로드하지 않고도 오버헤드 없는 draft 적응을 가능하게 하며, 적응형 런타임 제어를 통해 speculation과 학습이 유익한 경우에만 이를 활성화합니다. TIDE는 분리된 추론과 학습을 적절한 GPU 클래스에 매핑하여 이기종 클러스터를 활용합니다. 다양한 실제 워크로드에서 TIDE는 정적 speculative decoding 대비 최대 1.15× 처리량 향상을 달성하는 동시에, 학습 신호를 재계산하는 접근 방식 대비 draft 학습 시간을 1.67× 단축합니다.

1. 서론

대규모 언어 모델(LLM)은 특히 수학 및 코드 생성과 같은 추론 집약적 작업에서 테스트 시점 연산을 확장함으로써 최첨단 성능을 달성하고 있습니다(Snell et al., 2024; Muennighoff et al., 2025). 그 결과, 추론 효율성은 현대 추론 지향 LLM을 실제 시스템에 배포하는 데 있어 핵심 병목이 되었습니다.

Speculative decoding은 LLM 추론을 가속하는 가장 효과적인 기법 중 하나입니다. 경량 draft 모델이 여러 토큰을 제안하고 target 모델이 이를 배치로 검증하는 방식으로, draft 모델과 target 모델이 잘 정렬되어 있을 때 처리량과 지연 시간을 크게 개선할 수 있습니다(Leviathan et al., 2023; Chen et al., 2023). 그러나 그 효과는 draft–target 정렬에 매우 민감하여, 정렬이 저하되면 수락률이 급격히 떨어지고 speculative decoding은 거의 또는 전혀 성능 향상을 제공하지 못합니다.

근본적인 문제는 draft–target 정렬이 본질적으로 워크로드에 의존적이라는 것입니다. 프로덕션 LLM 서비스에서 추론 워크로드는 사용자 행동 변화, 애플리케이션 로직 업데이트, 프롬프트 템플릿 수정에 따라 지속적으로 변화합니다. 워크로드는 전역적으로 비정상적이지만, 선행 연구에 따르면 강한 단기 시간적 지역성을 보여, 최근 추론 이력이 가까운 미래의 요청을 예측하는 데 유효합니다(Wang et al., 2024; Gim et al., 2024; Zheng et al., 2024a; Xiang et al., 2025). 이는 장기 분포가 변하더라도 최근 추론 행동에 적응함으로써 정렬을 유지할 수 있음을 시사합니다.

최근 연구들은 추론 시점 신호를 활용하여 draft 모델을 온라인으로 적응시키는 기회를 탐구해 왔습니다. 예를 들어 target 모델의 교정이나 logit을 통한 온라인 증류가 있습니다(Zhou et al., 2024; Yan et al., 2025). 이러한 접근 방식들은 분포 변화 하에서 정렬을 회복할 수 있음을 보여주지만, 주로 학습 알고리즘 자체에 초점을 맞추고 있습니다. 온라인 draft 학습이 고성능 추론 엔진에 통합되어 지속적인 엔드투엔드 처리량 향상을 달성할 수 있는지는 여전히 시스템 수준의 미해결 과제입니다.

실제로 이 문제를 해결하려면 학습과 서빙 간의 신중한 조율이 필요합니다. 온라인 draft 학습은 지연에 민감한 추론에 최소한의 간섭만 주어야 하고, 현실적인 자원 제약 하에서 운영되어야 하며, 유익한 경우에만 적응해야 합니다. Speculative decoding의 성능 영향은 워크로드 단계에 따라 다르기 때문에, 지속적인 speculation이나 학습은 종종 불필요하고 오히려 역효과를 낼 수 있습니다. 따라서 효과적인 배포에는 추론 서빙 중 관찰 가능한 신호만을 기반으로, 언제 speculation하고 언제 학습할지에 대한 동적 런타임 제어가 필요합니다.

이러한 과제들을 해결하기 위해, 변화하는 워크로드 하에서 적응형 speculative decoding을 위한 서빙 엔진 네이티브 프레임워크인 Temporal Incremental Draft Engine(TIDE)을 소개합니다. Draft 적응을 독립적인 학습 문제로 다루는 대신, TIDE는 학습 신호 수집, draft 모델 업데이트, speculative decoding 결정을 추론 서빙 엔진 내에서 통합적으로 관리합니다.

TIDE는 최근 추론 행동을 기반으로 draft 모델을 점진적으로 적응시켜 단기 시간적 지역성을 활용하며, speculative decoding과 학습이 유익한 시점을 동적으로 제어합니다. 핵심적으로, TIDE는 검증 중 target 모델이 이미 계산한 중간 hidden representation을 재사용하여 추가 추론 오버헤드 없이 학습 데이터를 생성하며, 학습 중 target 모델 활성화를 다시 로드하거나 재계산할 필요를 제거합니다.

마지막으로, TIDE는 추론 서빙과 draft 학습을 분리하여 현실적인 하드웨어 제약 하에서 효율적인 배포를 가능하게 합니다. 평가에서 NVIDIA H100 GPU에서의 추론 서빙과 AMD Instinct MI250 GPU에서의 draft 모델 학습을 결합하여, 높은 speculative decoding 성능을 유지하면서 전체 시스템 처리량을 향상시킬 수 있음을 보여줍니다.

요약하면, 주요 기여는 다음과 같습니다:

비정상적 추론 워크로드 하에서 draft–target 정렬을 점진적으로 유지하는 적응형 speculative decoding을 위한 서빙 엔진 네이티브 프레임워크인 TIDE를 제안합니다.
추론 중 계산된 중간 hidden state를 재사용하여 오버헤드 없는 학습 데이터 생성을 가능하게 하며, 대규모 target 모델을 로드하지 않고도 효율적인 draft 학습을 수행합니다.
언제 speculation하고 언제 학습할지를 결정하는 적응형 런타임 제어 메커니즘을 도입하여, 불리한 워크로드 조건에서의 불필요한 오버헤드를 방지합니다.
추론과 학습을 분리하여 효과적인 이기종 GPU 활용을 시연하며, NVIDIA H100 GPU에서 추론을, AMD MI250 GPU에서 draft 학습을 실행합니다.
완전한 TIDE 프로토타입을 구현하고 다양한 실제 워크로드 패턴에서 일관된 시스템 수준 처리량 향상을 보여줍니다.

5. 평가

5.5. 이기종 GPU 할당

다양한 컴퓨팅 능력을 가진 이기종 GPU 클러스터에서 배포할 때 TIDE의 성능 이점을 평가합니다. Figure 11은 다양한 GPU 유형에 대한 추론 및 draft 모델 학습의 처리량 비교를 MI250 기준으로 정규화하여 보여줍니다. 결과는 추론과 학습 워크로드 간의 불균형적인 처리량 차이를 나타냅니다. 추론의 경우 H100은 MI250 대비 6.76× 높은 처리량을 달성하며, MI300X는 4.42×입니다. 그러나 학습의 경우 그 차이는 훨씬 작아, H100은 MI250 대비 2.44× 향상에 그치고 MI300X는 1.77×입니다. 이러한 불균형은 MI250과 같은 하위 GPU가 학습에 더 효과적으로 기여하고 상위 GPU가 추론 워크로드를 처리하는 TIDE의 이기종 자원 할당 전략의 동기가 됩니다.

Figure 11: 추론 및 draft 모델 학습에 대한 GPU별 처리량 비교, MI250 기준 정규화. 추론 처리량은 SGLang을 사용한 ShareGPT 데이터셋의 gpt-oss-120b에서 측정. 학습 처리량은 PyTorch와 FSDP 병렬화를 사용하여 8개 GPU 장치가 있는 단일 노드에서 측정.

이 접근 방식의 이점을 정량화하기 위해, 네 가지 다양한 데이터셋에서 두 가지 자원 할당 전략을 비교하여 TIDE를 평가합니다: (1) 모든 GPU가 speculative decoding을 비활성화한 채 추론을 수행하는 방식, (2) TIDE가 4개 GPU가 있는 단일 MI250 노드를 draft 모델 학습에, 8개 GPU가 있는 단일 H100 노드를 추론에 할당하는 방식. Figure 10은 TIDE가 전체 추론 기준 대비 1.08–1.22× 처리량 향상을 달성함을 보여줍니다. 향상은 draft 모델 학습을 통해 달성된 speculative decoding 속도 향상과 상관관계가 있으며, s=1.15(ShareGPT, 1.08× 처리량)에서 s=1.30(Science, 1.22× 처리량)까지 범위입니다. 이러한 변동은 데이터셋 간 출력 분포 특성과 draft 모델 학습 난이도의 차이를 반영합니다. 예를 들어 Science 데이터셋의 더 구조화된 출력은 더 나은 draft 모델 학습을 가능하게 하여, 더 높은 수락률과 더 큰 속도 향상을 가져옵니다. 이 결과는 TIDE의 이점이 데이터셋 특성에 따라 달라짐을 보여주며, 이기종 학습 전략을 배포할 때 워크로드 속성을 고려하는 것의 중요성을 강조합니다.

전체 추론 기준과 TIDE 간의 네 가지 데이터셋에 대한 상대적 처리량 비교 — Figure 10: draft 모델 학습에 4개 GPU가 있는 단일 MI250 노드를, 추론에 8개 GPU가 있는 단일 H100 노드를 사용한 네 가지 데이터셋에 대한 전체 추론 기준과 TIDE 간의 상대적 처리량 비교. 괄호 안의 값은 각 데이터셋에서 draft 모델 학습을 통해 달성된 speculative decoding 속도 향상(s)을 나타냅니다.

전체 논문은 arXiv에서 읽으실 수 있습니다.

TIDE: 자기 개선형 LLM 추론을 위한 Temporal Incremental Draft Engine

초록

1. 서론

5. 평가

5.5. 이기종 GPU 할당