TIDE: Temporal Incremental Draft Engine for Self-Improving LLM Inference

概要

Speculative decoding は LLM 推論を大幅に高速化できますが、変化するワークロードやシステムレベルの制約により、実際にその利点を実現することは困難です。本論文では、オンライン draft 適応を高性能 LLM 推論システムに直接統合するサービングエンジンネイティブフレームワークである TIDE（Temporal Incremental Draft Engine）を提案します。TIDE は推論中に生成された target モデルの hidden state を学習信号として再利用し、target モデルを再読み込みすることなくオーバーヘッドゼロの draft 適応を実現するとともに、適応的ランタイム制御により speculation と学習が有益な場合にのみこれらを有効化します。TIDE は分離された推論と学習を適切な GPU クラスにマッピングすることで異種クラスタを活用します。多様な実環境ワークロードにおいて、TIDE は静的 speculative decoding と比較して最大 1.15× のスループット向上を達成し、学習信号を再計算するアプローチと比較して draft 学習時間を 1.67× 短縮します。

1. はじめに

大規模言語モデル（LLM）は、特に数学やコード生成などの推論集約型タスクにおいて、テスト時計算のスケーリングにより最先端の性能を達成しています（Snell et al., 2024; Muennighoff et al., 2025）。その結果、推論効率は現代の推論指向 LLM を実システムにデプロイする上での中核的なボトルネックとなっています。

Speculative decoding は LLM 推論を高速化する最も効果的な技術の一つです。軽量な draft モデルが複数のトークンを提案し、target モデルがそれらをバッチで検証することで、draft モデルと target モデルが良好にアラインメントされている場合、スループットとレイテンシを大幅に改善できます（Leviathan et al., 2023; Chen et al., 2023）。しかし、その効果は draft–target アラインメントに非常に敏感であり、アラインメントが低下すると受理率が急激に落ち込み、speculative decoding はほとんどまたは全く性能向上をもたらしません。

根本的な課題は、draft–target アラインメントが本質的にワークロードに依存することです。プロダクション LLM サービスでは、ユーザー行動の変化、アプリケーションロジックの更新、プロンプトテンプレートの修正に伴い、推論ワークロードは継続的に変化します。ワークロードはグローバルには非定常ですが、先行研究では強い短期時間的局所性を示し、最近の推論履歴が近い将来のリクエストに対して予測的であることが示されています（Wang et al., 2024; Gim et al., 2024; Zheng et al., 2024a; Xiang et al., 2025）。これは、長期的な分布が変化しても、最近の推論行動に適応することでアラインメントを維持できることを示唆しています。

最近の研究では、推論時の信号を活用して draft モデルをオンラインで適応させる機会が探求されています。例えば、target モデルの修正や logit を通じたオンライン蒸留があります（Zhou et al., 2024; Yan et al., 2025）。これらのアプローチは分布シフト下でアラインメントを回復できることを示していますが、主に学習アルゴリズム自体に焦点を当てています。オンライン draft 学習が高性能推論エンジンに統合され、持続的なエンドツーエンドのスループット向上を実現できるかどうかは、依然としてシステムレベルの未解決課題です。

実際にこの課題に取り組むには、学習とサービングの間の慎重な調整が必要です。オンライン draft 学習はレイテンシクリティカルな推論への干渉を最小限に抑え、現実的なリソース制約の下で動作し、有益な場合にのみ適応する必要があります。Speculative decoding の性能への影響はワークロードフェーズによって異なるため、継続的な speculation や学習は不要であり、逆効果となることさえあります。したがって、効果的なデプロイには、推論サービング中に観測可能な信号のみに基づいて、いつ speculation し、いつ学習するかの動的ランタイム制御が必要です。

これらの課題に対処するため、変化するワークロード下での適応的 speculative decoding のためのサービングエンジンネイティブフレームワークである Temporal Incremental Draft Engine（TIDE）を導入します。Draft 適応を独立した学習問題として扱うのではなく、TIDE は学習信号の収集、draft モデルの更新、speculative decoding の決定を推論サービングエンジン内で統合的に管理します。

TIDE は最近の推論行動に基づいて draft モデルを漸進的に適応させることで短期時間的局所性を活用し、speculative decoding と学習が有益なタイミングを動的に制御します。重要なことに、TIDE は検証中に target モデルが既に計算した中間 hidden representation を再利用してゼロの追加推論オーバーヘッドで学習データを生成し、学習中に target モデルの活性化を再読み込みまたは再計算する必要を排除します。

最後に、TIDE は推論サービングと draft 学習を分離し、現実的なハードウェア制約の下で効率的なデプロイを可能にします。評価において、NVIDIA H100 GPU での推論サービングと AMD Instinct MI250 GPU での draft モデル学習を組み合わせ、高い speculative decoding 性能を維持しながら全体的なシステムスループットを向上させることを示します。

要約すると、主な貢献は以下の通りです：

非定常な推論ワークロード下で draft–target アラインメントを漸進的に維持する適応的 speculative decoding のためのサービングエンジンネイティブフレームワーク TIDE を提案します。
推論中に計算された中間 hidden state を再利用することでオーバーヘッドゼロの学習データ生成を実現し、大規模な target モデルを読み込むことなく効率的な draft 学習を可能にします。
いつ speculation し、いつ学習するかを決定する適応的ランタイム制御メカニズムを導入し、不利なワークロード条件下での不要なオーバーヘッドを回避します。
推論と学習を分離することで効果的な異種 GPU 活用を実証し、NVIDIA H100 GPU で推論を、AMD MI250 GPU で draft 学習を実行します。
完全な TIDE プロトタイプを実装し、多様な実環境ワークロードパターンにおいて一貫したシステムレベルのスループット向上を示します。

5. 評価

5.5. 異種 GPU 割り当て

異なる計算能力を持つ異種 GPU クラスタでのデプロイ時における TIDE の性能上の利点を評価します。Figure 11 は、異なる GPU タイプでの推論および draft モデル学習のスループット比較を MI250 ベースラインに正規化して示しています。結果は、推論と学習ワークロード間の不均衡なスループット格差を明らかにしています。推論では、H100 は MI250 と比較して 6.76× 高いスループットを達成し、MI300X は 4.42× です。しかし、学習では格差ははるかに小さく、H100 は MI250 に対して 2.44× の改善にとどまり、MI300X は 1.77× です。この格差は、MI250 のような低位 GPU が学習により効果的に貢献し、高位 GPU が推論ワークロードを処理する TIDE の異種リソース割り当て戦略の動機となっています。

Figure 11: 推論および draft モデル学習の GPU ごとのスループット比較、MI250 ベースラインに正規化。推論スループットは SGLang を使用した ShareGPT データセットの gpt-oss-120b で測定。学習スループットは PyTorch と FSDP 並列化を使用した 8 GPU デバイスの単一ノードで測定。

このアプローチの利点を定量化するため、4 つの多様なデータセットで 2 つのリソース割り当て戦略を比較して TIDE を評価します：（1）すべての GPU が speculative decoding を無効にして推論を実行、（2）TIDE が 4 GPU の単一 MI250 ノードを draft モデル学習に、8 GPU の単一 H100 ノードを推論に割り当て。Figure 10 は、TIDE が全推論ベースラインに対して 1.08–1.22× のスループット向上を達成することを示しています。向上は draft モデル学習を通じて達成された speculative decoding の高速化と相関しており、s=1.15（ShareGPT、1.08× スループット）から s=1.30（Science、1.22× スループット）の範囲です。これらの変動はデータセット間の出力分布特性と draft モデルの学習難易度の違いを反映しています。例えば、Science データセットのより構造化された出力はより良い draft モデル学習を可能にし、より高い受理率とより大きな高速化をもたらします。この結果は、TIDE の利点がデータセット特性によって異なることを示し、異種学習戦略をデプロイする際にワークロード特性を考慮することの重要性を強調しています。

Figure 10: draft モデル学習に 4 GPU の単一 MI250 ノード、推論に 8 GPU の単一 H100 ノードを使用した 4 つのデータセットにおける全推論ベースラインと TIDE の相対的スループット比較。括弧内の値は各データセットで draft モデル学習を通じて達成された speculative decoding の高速化（s）を示します。

論文全文は arXiv でお読みいただけます。

TIDE: 自己改善型 LLM 推論のための Temporal Incremental Draft Engine

概要

1. はじめに

5. 評価

5.5. 異種 GPU 割り当て