Files
internal-docs/papers/md/Autoregressive Denoising Diffusion.md
Hongyu Yan 1cbfc6d53d 新增提取所有md文件的脚本
所有md文件都会被提取到/papers/md文件夹下
2026-01-26 18:22:48 +08:00

8.1 KiB
Raw Blame History

Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forecasting

第一个问题请对论文的内容进行摘要总结包含研究背景与问题、研究目的、方法、主要结果和结论字数要求在150-300字之间使用论文中的术语和概念。

论文面向高维多变量概率时间序列预测,指出现有方法常依赖可处理的分布族(如多元高斯/低秩近似、copula或normalizing flows对真实分布的多模态/非连通结构表达受限且高维协方差建模代价高。研究目的在于构建一个能在每个时间步学习灵活条件分布、并保持自回归预测优势的模型。方法上提出TimeGrad用RNNLSTM/GRU编码历史与covariates得到隐藏状态h_{t1}并在每个时间步以条件denoising diffusion probabilistic model/score matching形式学习p_θ(x_t^0|h_{t1}),训练通过变分下界等价的噪声预测损失||εε_θ(·,h_{t1},n)||^2推断用annealed Langevin dynamics式的反向马尔可夫链从白噪声采样。实验在六个真实数据集最高达2000维上以CRPS与CRPS_sum评测TimeGrad在除最小数据集外均达到新的SOTA结论是“自回归+扩散/EBM”的组合可有效学习高维相关预测分布。

第二个问题请提取论文的摘要原文摘要一般在Abstract之后Introduction之前。

In this work, we propose TimeGrad, an autoregressive model for multivariate probabilistic time series forecasting which samples from the data distribution at each time step by estimating its gradient. To this end, we use diffusion probabilistic models, a class of latent variable models closely connected to score matching and energy-based methods. Our model learns gradients by optimizing a variational bound on the data likelihood and at inference time converts white noise into a sample of the distribution of interest through a Markov chain using Langevin sampling. We demonstrate experimentally that the proposed autoregressive denoising diffusion model is the new state-of-the-art multivariate probabilistic forecasting method on real-world data sets with thousands of correlated dimensions. We hope that this method is a useful tool for practitioners and lays the foundation for future research in this area.

第三个问题:请列出论文的全部作者,按照此格式:作者1, 作者2, 作者3

Kashif Rasul, Calvin Seward, Ingmar Schuster, Roland Vollgraf

第四个问题:请直接告诉我这篇论文发表在哪个会议或期刊,请不要推理或提供额外信息。

文段未给出会议或期刊信息。

第五个问题:请详细描述这篇论文主要解决的核心问题,并用简洁的语言概述。

论文要解决的核心问题是在多变量维度D可达上千/上万时间序列预测中如何为每个未来时间步学习“高维、相关、可能多模态且非高斯”的条件预测分布q_X(x_t^0|x_{1:t-1}^0,c_{1:T})同时避免传统多元高斯协方差带来的O(D^2)参数和O(D^3)计算、以及normalizing flows/VAEs在非连通模式上可能出现的“连接模式间的虚假密度/映射困难”。TimeGrad通过在自回归框架下把每个时间步的发射分布替换为可用Langevin采样的扩散/score-based EBM从而以更少的结构限制拟合复杂分布。简洁概述用“RNN条件 + 扩散去噪得分模型”替代传统输出分布,做高维相关概率预测。

第六个问题:请告诉我这篇论文提出了哪些方法,请用最简洁的方式概括每个方法的核心思路。

(1) TimeGrad总体框架把多变量预测分解为自回归因子Π_{t=t0}^T p_θ(x_t^0|h_{t1})其中h_{t1}由RNN对历史与协变量编码。(2) 条件扩散发射头conditional denoising diffusion model对每个时间步t把目标向量x_t^0视为训练样本使用固定前向扩散q(x_n|x_{n1})加噪学习反向p_θ(x_{n1}|x_n,h_{t1})去噪。(3) 噪声ε预测的训练目标用Ho et al. (2020)的ε-parameterization优化E[||εε_θ(√\barα_n x_t^0+√(1\barα_n)ε, h_{t1}, n)||^2]选择Σ_θ=β_n以学习score/梯度。(4) 推断与采样给定h_{t1}从x_t^NN(0,I)出发按n=N…1进行反向更新含噪声项z得到x_t^0再把采样到的x_t^0回喂RNN滚动生成多步轨迹。(5) 维度缩放Scaling按context window的均值对各维归一化均值为0则用1预测后再缩放回原尺度以处理不同维度量纲差异。(6) 协变量建模Covariates对类别特征用embedding组合时间相关hour/day等、时间不变特征与lag features作为RNN输入的一部分。

第七个问题:请告诉我这篇论文所使用的数据集,包括数据集的名称和来源。

使用六个公开数据集并声明“preprocessed exactly as in (Salinas et al., 2019a)”ExchangeLai et al., 2018SolarLai et al., 2018ElectricityUCI ElectricityLoadDiagrams20112014https://archive.ics.uci.edu/ml/datasets/ElectricityLoadDiagrams20112014TrafficUCI PEMS-SFhttps://archive.ics.uci.edu/ml/datasets/PEMS-SFTaxiNYC TLC Trip Record Datahttps://www1.nyc.gov/site/tlc/about/tlc-trip-record-data.pageWikipediaGluonTS仓库提供链接指向https://github.com/mbohlkeschneider/gluon-ts/tree/mv_release/datasets

第八个问题:请列举这篇论文评估方法的所有指标,并简要说明这些指标的作用。

(1) CRPSContinuous Ranked Probability Score对每个维度的预测CDF F与观测x的兼容性评分CRPS越小代表预测分布越接近真实分布是proper scoring rule。(2) CRPS_sum先对D维求和得到标量序列再对其预测分布\hat F_sum计算CRPS并在预测区间上平均用于衡量模型对“总量/聚合量”不确定性的刻画能力并且同样是proper scoring function。论文强调选择CRPS类指标是因为部分对比方法不提供解析likelihood或likelihood不可比。

第九个问题:请总结这篇论文实验的表现,包含具体的数值表现和实验结论。

论文在六个数据集上用CRPS_sum对比多类基线VAR/VAR-Lasso/GARCH/VES、KVAE、Vec-LSTM系列、GP-Copula/GP-scaling、Transformer-MAFTimeGrad在除最小数据集外均为最优Exchange上TimeGrad 0.006±0.001最优为VES 0.005±0.000TimeGrad略逊Solar上0.287±0.02优于Transformer-MAF 0.301±0.014等Electricity上0.0206±0.001与Transformer-MAF 0.0207±0.000接近且更好Traffic上0.044±0.006优于Transformer-MAF 0.056±0.001Taxi上0.114±0.02优于Transformer-MAF 0.179±0.002等Wikipedia上0.0485±0.002优于Transformer-MAF 0.063±0.003。消融显示扩散步数N可降到约10而性能无明显损失最优大约在N≈100继续增大无收益。结论TimeGrad作为“自回归扩散去噪模型”在高维相关概率预测上达到SOTA并具备对多尺度/多模态分布更友好的建模特性。

第十个问题:请清晰地描述论文所作的工作,分别列举出动机和贡献点以及主要创新之处。

动机:(1) 多变量概率预测需要刻画不确定性与跨维相关性,但多元高斯/低秩/二阶相关限制明显且计算昂贵;(2) normalizing flows/VAEs在高维、非连通模式分布上可能产生虚假密度或映射困难(3) EBMs/score-based方法表达力强但训练与时间序列条件化结合不足。 贡献点与创新:(1) 提出TimeGrad将每个时间步的条件发射分布建模为RNN条件化的denoising diffusion probabilistic model通过ε-预测学习梯度/score并用Langevin式反向链采样从而在自回归预测中实现高维灵活分布建模(2) 给出训练与推断算法逐时间步训练目标、滚动采样轨迹并加入适配真实多维量纲差异的scale normalization与covariate embedding(3) 在六个真实基准最高2000维上用CRPS与CRPS_sum系统对比取得除最小数据集外的SOTA(4) 分析扩散长度N的影响指出N≈10已可用、N≈100最优为实践中的采样-质量权衡提供依据。