Files
internal-docs/papers/md/CSDI Conditional Score-based Diffusion Model.md
Hongyu Yan 1cbfc6d53d 新增提取所有md文件的脚本
所有md文件都会被提取到/papers/md文件夹下
2026-01-26 18:22:48 +08:00

9.7 KiB
Raw Blame History

CSDI: Conditional Score-based Diffusion Models for Probabilistic Time Series Imputation

第一个问题请对论文的内容进行摘要总结包含研究背景与问题、研究目的、方法、主要结果和结论字数要求在150-300字之间使用论文中的术语和概念。

论文研究多变量时间序列缺失值插补probabilistic time series imputation指出传统以autoregressive为主的插补方法虽常用但score-based diffusion models在图像/音频生成上已显著优于同类方法且现有“用无条件扩散模型近似后验score”的插补做法会对观测值加噪、并非精确条件分布。研究目的为直接学习q(x0^ta|x0^co)的条件分布并提升插补质量。方法提出CSDI基于DDPM参数化将反向过程扩展为pθ(x^ta_{t-1}|x^ta_t,x0^co)令去噪网络εθ显式条件化于观测含conditional mask并用masked language modeling式自监督训练把观测拆为conditional observations与imputation targets含random/historical/mix/testpattern策略实现上采用2D attention时间Transformer+特征Transformer捕获时序与跨特征依赖并加入时间/特征嵌入。结果在PhysioNet 2012与北京空气质量数据上CSDI将CRPS相对现有概率插补方法提升4065%确定性插补MAE降低520%并在插值与概率预测上具竞争力。结论是“为插补显式训练的条件扩散模型”显著优于后验近似式扩散插补与RNN基线。

第二个问题请提取论文的摘要原文摘要一般在Abstract之后Introduction之前。

The imputation of missing values in time series has many applications in healthcare and finance. While autoregressive models are natural candidates for time series imputation, score-based diffusion models have recently outperformed existing counterparts including autoregressive models in many tasks such as image generation and audio synthesis, and would be promising for time series imputation. In this paper, we propose Conditional Score-based Diffusion models for Imputation (CSDI), a novel time series imputation method that utilizes score-based diffusion models conditioned on observed data. Unlike existing score-based approaches, the conditional diffusion model is explicitly trained for imputation and can exploit correlations between observed values. On healthcare and environmental data, CSDI improves by 40-65% over existing probabilistic imputation methods on popular performance metrics. In addition, deterministic imputation by CSDI reduces the error by 5-20% compared to the state-of-the-art deterministic imputation methods. Furthermore, CSDI can also be applied to time series interpolation and probabilistic forecasting, and is competitive with existing baselines. The code is available at https://github.com/ermongroup/CSDI.

第三个问题:请列出论文的全部作者,按照此格式:作者1, 作者2, 作者3

Yusuke Tashiro, Jiaming Song, Yang Song, Stefano Ermon

第四个问题:请直接告诉我这篇论文发表在哪个会议或期刊,请不要推理或提供额外信息。

35th Conference on Neural Information Processing Systems (NeurIPS 2021)

第五个问题:请详细描述这篇论文主要解决的核心问题,并用简洁的语言概述。

论文核心要解决在多变量时间序列X∈R^{K×L}存在缺失mask M如何学习缺失部分的条件分布q(x0^ta|x0^co)并进行概率插补(输出分布/采样同时充分利用观测值在时间维与特征维的相关性。现有score-based/扩散插补通常用“无条件扩散模型”近似条件反向过程在反向采样中对观测x0^co也加噪并拼接进入x_t导致观测信息被噪声破坏且不对应精确的条件分布从而限制插补质量。CSDI通过“显式条件反向过程 + 为插补专门训练的εθ(x^ta_t,t|x0^co)”来避免该近似,并用自监督策略在训练时构造(conditional, target)对。简洁概述:用显式条件扩散模型直接建模“给定观测的缺失分布”,替代对观测加噪的后验近似式扩散插补。

第六个问题:请告诉我这篇论文提出了哪些方法,请用最简洁的方式概括每个方法的核心思路。

(1) CSDI条件扩散插补框架把DDPM反向链改为pθ(x^ta_{t-1}|x^ta_t,x0^co),在每步去噪时显式输入观测条件以恢复缺失值分布。(2) 条件DDPM参数化沿用DDPM的μ_DDPM/σ_DDPM形式仅将εθ扩展为条件网络εθ(x^ta_t,t|x0^co)并在实现里加m_co。(3) 自监督训练masked language modeling式把“观测值”划分为x0^co与x0^ta目标对x0^ta加噪得到x^ta_t优化||ε−εθ(x^ta_t,t|x0^co)||^2无需真实缺失的ground truth。(4) 目标选择策略target choiceRandom随机比例选观测为目标、Historical用训练集中其他样本缺失模式决定目标、Mix随机+历史混合、Testpattern已知测试缺失模式时直接用。(5) 时间序列实现的输入对齐将x^ta_t与x0^co零填充到固定K×L形状配合conditional mask m_co指示条件位置与输出mask。(6) 2D attention去噪网络在残差层中同时做temporal Transformer沿L捕获时间依赖与feature Transformer沿K捕获特征依赖。(7) Side information时间戳s的128维time embedding + 特征ID的embedding用于增强条件建模。

第七个问题:请告诉我这篇论文所使用的数据集,包括数据集的名称和来源。

插补/插值数据集:(1) PhysioNet Challenge 2012 healthcare数据集4000个ICU临床时间序列35变量48小时文中引用Silva et al., 2012。(2) Air qualityBeijing PM2.5数据集北京36个站点PM2.5小时数据文中引用Yi et al., 2016并说明数据覆盖2014/05/012015/04/30且含结构化缺失/人工ground truth。预测forecasting数据集来自GluonTS并按Salinas et al. 2019预处理solar137站点光伏发电记录、electricityUCI ElectricityLoadDiagrams20112014、trafficUCI PEMS-SF、taxiNYC TLC trip records聚合的1214位置半小时序列、wiki2000维Wikipedia page views

第八个问题:请列举这篇论文评估方法的所有指标,并简要说明这些指标的作用。

(1) CRPScontinuous ranked probability score评估概率插补/插值的预测分布与观测值的匹配程度越小越好用100个样本近似分布并按分位数损失积分近似计算论文用于概率插补与预测也报告逐任务CRPS。(2) 归一化平均CRPS对所有目标(k,l)的CRPS求和后除以∑|x_{k,l}|用于跨特征尺度的可比性论文Eq.18)。(3) MAEmean absolute error确定性插补误差越小越好CSDI取100样本中位数作为确定性插补。(4) RMSE确定性插补/插值误差补充指标越小越好在附录表9/10报告。(5) CRPS-sum概率预测任务中“对K维求和后的分布”的CRPS越小越好衡量联合效应/聚合量不确定性论文Eq.19)。(6) MSE概率预测任务的点误差补充指标越小越好表12。(7) NLLnegative log likelihood论文做了对比分析表8说明其对噪声schedule敏感且与样本质量/CRPS不一定相关因此不作为主指标。

第九个问题:请总结这篇论文实验的表现,包含具体的数值表现和实验结论。

概率插补CRPS越低越好表2在healthcare数据上CSDI分别为10%/50%/90% missing0.238(0.001)/0.330(0.002)/0.522(0.002)优于Multitask GP0.489/0.581/0.942、GP-VAE0.574/0.774/0.998、V-RIN0.808/0.831/0.922并优于“unconditional diffusion”插补0.360/0.458/0.671。在air quality上CSDI为0.108(0.001)优于Multitask GP 0.301、GP-VAE 0.397、V-RIN 0.526、unconditional 0.135。确定性插补MAE表3healthcare为0.217/0.301/0.48110/50/90% missing优于BRITS 0.284/0.368/0.517、GLIMA引用10.54在air quality上CSDI在air quality为9.60(0.04)优于BRITS引用11.56、unconditional 12.13等总体称提升520%。插值不规则采样CRPS表4CSDI 0.380/0.418/0.55610/50/90% missing优于Latent ODE与mTANs。预测CRPS-sum表5CSDI在electricity与traffic上最好0.017与0.020在solar/taxi/wiki上与SOTA基线接近或略优例如wiki 0.047 vs TimeGrad 0.049)。结论:显式条件扩散模型+自监督训练显著提升概率/确定性插补,并可迁移到插值与预测。

第十个问题:请清晰地描述论文所作的工作,分别列举出动机和贡献点以及主要创新之处。

动机:(1) 时间序列缺失普遍存在且影响医疗/金融等应用;(2) 既有深度插补多为autoregressive难以达到扩散模型在生成任务中的表现(3) 现有扩散插补多用“无条件扩散近似条件后验score”需要对观测加噪信息受损且不对应精确条件分布。 贡献点与创新:(1) 提出CSDI为插补任务显式建模pθ(x0^ta|x0^co)的conditional score-based diffusion model并在反向去噪中直接条件化于观测值以利用相关性。(2) 自监督训练机制借鉴masked language modeling把观测拆成条件与目标设计random/historical/mix/testpattern等target choice策略使得即使训练集缺少真实缺失ground truth也能训练。(3) 面向多变量时序的结构设计提出2D attention时间Transformer+特征Transformer与side informationtime embedding、feature embedding强化跨时间/跨特征依赖建模。(4) 系统实证在healthcare与air quality上CRPS提升4065%确定性MAE降低520%并展示对插值与预测的可扩展性与竞争力同时通过消融证明2D attention等组件关键。