TIDE: Temporal Incremental Draft Engine for Self-Improving LLM Inference

摘要

Speculative decoding 可以大幅加速 LLM 推理，但由于不断变化的工作负载和系统级约束，在实践中实现其优势具有挑战性。我们提出了 TIDE（Temporal Incremental Draft Engine），一个服务引擎原生的框架，将在线 draft 适应直接集成到高性能 LLM 推理系统中。TIDE 重用推理过程中生成的 target 模型 hidden state 作为训练信号，实现零开销的 draft 适应而无需重新加载 target 模型，并采用自适应运行时控制，仅在有益时才激活 speculation 和训练。TIDE 通过将解耦的推理和训练映射到适当的 GPU 类别来利用异构集群。在各种实际工作负载中，TIDE 相比静态 speculative decoding 实现了高达 1.15× 的吞吐量提升，同时相比重新计算训练信号的方法将 draft 训练时间缩短了 1.67×。

1. 引言

大语言模型（LLM）通过扩展测试时计算，特别是在数学和代码生成等推理密集型任务中，日益实现最先进的性能（Snell et al., 2024; Muennighoff et al., 2025）。因此，推理效率已成为在实际系统中部署现代推理导向型 LLM 的核心瓶颈。

Speculative decoding 是加速 LLM 推理最有效的技术之一。通过让轻量级 draft 模型提出多个 token，然后由 target 模型批量验证，当 draft 模型和 target 模型良好对齐时，speculative decoding 可以显著提高吞吐量和降低延迟（Leviathan et al., 2023; Chen et al., 2023）。然而，其效果对 draft–target 对齐高度敏感：当对齐退化时，接受率急剧下降，speculative decoding 几乎无法带来性能提升。

一个根本性挑战是 draft–target 对齐本质上依赖于工作负载。在生产环境的 LLM 服务中，推理工作负载随着用户行为变化、应用逻辑更新和提示模板修改而持续演变。虽然工作负载在全局上是非平稳的，但先前研究表明它们表现出强烈的短期时间局部性，最近的推理历史对近期请求仍具有预测性（Wang et al., 2024; Gim et al., 2024; Zheng et al., 2024a; Xiang et al., 2025）。这表明即使长期分布发生变化，原则上也可以通过适应最近的推理行为来保持对齐。

最近的工作探索了利用推理时信号在线适应 draft 模型的机会，例如通过 target 模型校正或 logit 的在线蒸馏（Zhou et al., 2024; Yan et al., 2025）。虽然这些方法表明在分布偏移下可以恢复对齐，但它们主要关注学习算法本身。在线 draft 训练能否集成到高性能推理引擎中，从而实现持续的端到端吞吐量提升，仍然是一个开放的系统级问题。

在实践中，解决这个问题需要学习和服务之间的精心协调。在线 draft 训练必须对延迟敏感的推理引入最小干扰，在现实的资源约束下运行，并且仅在有益时才进行适应。由于 speculative decoding 的性能影响因工作负载阶段而异，持续的 speculation 或训练通常是不必要的，甚至可能适得其反。因此，有效的部署需要基于推理服务期间可观察到的信号，对何时进行 speculation 和何时进行训练实施动态运行时控制。

为了应对这些挑战，我们引入了 Temporal Incremental Draft Engine（TIDE），一个面向不断变化的工作负载下自适应 speculative decoding 的服务引擎原生框架。TIDE 不是将 draft 适应视为独立的学习问题，而是在推理服务引擎内统一管理训练信号收集、draft 模型更新和 speculative decoding 决策。

TIDE 通过基于最近推理行为增量适应 draft 模型来利用短期时间局部性，同时动态控制 speculative decoding 和训练何时有益。关键的是，TIDE 通过重用验证期间 target 模型已经计算的中间 hidden representation，以零额外推理开销生成训练数据，消除了训练期间重新加载或重新计算 target 模型激活的需要。

最后，TIDE 将推理服务和 draft 训练解耦，以在现实的硬件约束下实现高效部署。在我们的评估中，我们展示了 NVIDIA H100 GPU 上的推理服务可以与 AMD Instinct MI250 GPU 上的 draft 模型训练配对，在保持高 speculative decoding 性能的同时提高整体系统吞吐量。

总结来说，我们的主要贡献是：

我们提出了 TIDE，一个服务引擎原生的自适应 speculative decoding 框架，在非平稳推理工作负载下增量维护 draft–target 对齐。
我们通过重用推理期间计算的中间 hidden state 实现零开销训练数据生成，无需加载大型 target 模型即可进行高效的 draft 训练。
我们引入了自适应运行时控制机制，确定何时进行 speculation 和何时进行训练，避免在不利工作负载条件下产生不必要的开销。
我们通过解耦推理和训练展示了有效的异构 GPU 利用，在 NVIDIA H100 GPU 上运行推理，在 AMD MI250 GPU 上运行 draft 训练。
我们实现了完整的 TIDE 原型，并在各种实际工作负载模式下展示了一致的系统级吞吐量提升。

5. 评估

5.5. 异构 GPU 分配

我们评估了在具有不同计算能力的异构 GPU 集群上部署时 TIDE 的性能优势。Figure 11 展示了不同 GPU 类型的推理和 draft 模型训练的吞吐量比较，以 MI250 为基准进行归一化。结果揭示了推理和训练工作负载之间不成比例的吞吐量差距。对于推理，H100 相比 MI250 实现了 6.76× 的吞吐量提升，MI300X 为 4.42×。然而，对于训练，差距要小得多：H100 相比 MI250 仅有 2.44× 的提升，MI300X 为 1.77×。这种差异为 TIDE 的异构资源分配策略提供了动机，即较低端的 GPU 如 MI250 更有效地贡献于训练，而较高端的 GPU 处理推理工作负载。

Figure 11: 推理和 draft 模型训练的每 GPU 吞吐量比较，以 MI250 为基准归一化。推理吞吐量使用 SGLang 在 ShareGPT 数据集上的 gpt-oss-120b 测量。训练吞吐量在使用 PyTorch 和 FSDP 并行化的 8 个 GPU 设备的单节点上测量。

为了量化这种方法的优势，我们在四个不同数据集上评估 TIDE，比较两种资源分配策略：（1）所有 GPU 执行推理且禁用 speculative decoding，（2）TIDE 将包含 4 个 GPU 的单个 MI250 节点分配给 draft 模型训练，而包含 8 个 GPU 的单个 H100 节点处理推理。Figure 10 显示 TIDE 相比全推理基准实现了 1.08–1.22× 的吞吐量提升。提升与通过 draft 模型训练实现的 speculative decoding 加速相关，范围从 s=1.15（ShareGPT，1.08× 吞吐量）到 s=1.30（Science，1.22× 吞吐量）。这些变化反映了不同数据集间输出分布特性和 draft 模型学习难度的差异。例如，Science 数据集更结构化的输出使得 draft 模型学习更好，从而获得更高的接受率和更大的加速。这一结果表明 TIDE 的优势因数据集特性而异，并强调了在部署异构训练策略时考虑工作负载属性的重要性。

Figure 10: 使用包含 4 个 GPU 的单个 MI250 节点进行 draft 模型训练和包含 8 个 GPU 的单个 H100 节点进行推理的四个数据集上全推理基准与 TIDE 之间的相对吞吐量比较。括号中的值表示每个数据集上通过 draft 模型训练实现的 speculative decoding 加速（s）。

请在 arXiv 上阅读完整论文。

TIDE：用于自改进 LLM 推理的时序增量 Draft 引擎

摘要

1. 引言

5. 评估

5.5. 异构 GPU 分配