Files

所有md文件都会被提取到/papers/md文件夹下

2026-01-26 18:22:48 +08:00

11 KiB

Raw Permalink Blame History

Structured Denoising Diffusion Models in Discrete State-Spaces

第一个问题：请对论文的内容进行摘要总结，包含研究背景与问题、研究目的、方法、主要结果和结论，字数要求在150-300字之间，使用论文中的术语和概念。

Denoising diffusion probabilistic models（DDPMs）在连续空间表现突出，但离散数据上的扩散模型仍难以在大规模文本与图像生成上达到竞争力。论文提出Discrete Denoising Diffusion Probabilistic Models（D3PMs），目标是通过“结构化的离散前向腐蚀过程”提升离散扩散的建模效果，并分析transition matrix与noise schedule对性能的关键影响。方法上，作者将离散扩散统一为基于Markov transition matrices Q_t 的类别扩散框架，提出多种结构化Q_t：discretized Gaussian（模拟连续高斯核、偏向相似状态）、embedding距离/nearest-neighbor（在嵌入空间定义局部性）、以及absorbing state（[MASK]吸收态并连接BERT/AR/MLM）。同时提出x0-parameterization的反向过程与新损失L_λ = L_vb + λ·CE(x0|x_t)，并给出基于mutual information的噪声日程。实验显示：文本上D3PM absorbing在text8取得≤1.45 bits/char（1000步）且在LM1B大词表上困惑度76.9（1000步）；图像上CIFAR-10的D3PM Gauss+logistic达到IS 8.56、FID 7.34、NLL≤3.435 bits/dim，接近/超过连续DDPM的对数似然并改善样本质量。结论是离散扩散中Q_t设计、辅助损失与MI日程显著提升性能，并揭示其与BERT/自回归/MLM的统一视角。

第二个问题：请提取论文的摘要原文，摘要一般在Abstract之后，Introduction之前。

Denoising diffusion probabilistic models (DDPMs) [19] have shown impressive results on image and waveform generation in continuous state spaces. Here, we introduce Discrete Denoising Diffusion Probabilistic Models (D3PMs), diffusion-like generative models for discrete data that generalize the multinomial diffusion model of Hoogeboom et al.[20], by going beyond corruption processes with uni-form transition probabilities. This includes corruption with transition matrices that mimic Gaussian kernels in continuous space, matrices based on nearest neighbors in embedding space, and matrices that introduce absorbing states. The third al-lows us to draw a connection between diffusion models and autoregressive and mask-based generative models. We show that the choice of transition matrix is an important design decision that leads to improved results in image and text domains. We also introduce a new loss function that combines the variational lower bound with an auxiliary cross entropy loss. For text, this model class achieves strong results on character-level text generation while scaling to large vocabularies on LM1B. On the image dataset CIFAR-10, our models approach the sample quality and exceed the log-likelihood of the continuous-space DDPM model.

第三个问题：请列出论文的全部作者，按照此格式：作者1, 作者2, 作者3。

Jacob Austin, Daniel D. Johnson, Jonathan Ho, Daniel Tarlow, Rianne van den Berg

第四个问题：请直接告诉我这篇论文发表在哪个会议或期刊，请不要推理或提供额外信息。

35th Conference on Neural Information Processing Systems (NeurIPS 2021).

第五个问题：请详细描述这篇论文主要解决的核心问题，并用简洁的语言概述。

论文核心问题是：如何把扩散模型从连续高斯噪声的DDPM有效推广到“离散状态空间”的文本与量化图像，并让离散扩散在样本质量、对数似然、训练稳定性与可扩展性（大词表、大序列）上达到可竞争水平。此前离散扩散（如multinomial diffusion）多使用“uniform transition probabilities”的腐蚀过程，导致前向噪声缺少结构：对图像这种有序/局部性的离散值（量化像素）无法“优先扩散到相近值”，对文本这种离散符号也难注入相似性或mask结构，从而使反向去噪学习更难、效果受限。作者提出应把“前向Markov转移矩阵Q_t”视为离散扩散的关键设计自由度：通过结构化Q_t（如离散高斯核、嵌入邻近、吸收态mask）把领域先验嵌入腐蚀过程，进而塑造更可学习的反向去噪；同时提出辅助交叉熵损失与互信息噪声日程，缓解训练不稳定与日程选择困难。简洁概述：用结构化的离散腐蚀转移矩阵+更稳的训练目标/噪声日程，使离散扩散在文本与图像上显著变强，并统一连接到BERT/MLM与自回归模型。

第六个问题：请告诉我这篇论文提出了哪些方法，请用最简洁的方式概括每个方法的核心思路。

D3PM（Discrete Denoising Diffusion Probabilistic Models）通用框架：用类别变量的Markov前向过程q(x_t|x_{t-1})=Cat(x_{t-1}Q_t)与学习的反向过程p_θ(x_{t-1}|x_t)做离散扩散生成
Structured transition matrices Q_t：将“腐蚀结构”编码进Q_t，而非仅uniform。
D3PM-uniform：Q_t=(1−β_t)I+β_t/K·11^T，向任意类别均匀扩散（Hoogeboom等的multinomial diffusion推广/实现）。
D3PM-absorbing（mask diffusion）：引入吸收态[MASK]，每步以β_t把token/像素变为[MASK]/灰像素，建立与BERT/MLM/AR的联系。
Discretized Gaussian Q_t（D3PM-Gauss）：对有序离散值（量化像素）用离散截断高斯核定义转移，使更相近的值更易互转，模仿连续高斯扩散的“局部性”。
Token embedding distance / Nearest-neighbor diffusion（D3PM-NN）：在预训练embedding空间构kNN图，构造对称rate matrix R并令Q_t=exp(α_t R)，使腐蚀沿语义邻近扩散。
Mutual-information-based noise schedule：选择α_t/β_t使I(x_t;x_0)按t/T线性衰减到0，作为“结构化Q_t下”的统一噪声标尺；在absorbing情形退化为β_t=(T−t+1)^{-1}。
x0-parameterization反向模型：网络预测~p_θ(~x_0|x_t)再与q(x_{t-1},x_t|~x_0)组合得到p_θ(x_{t-1}|x_t)，自动继承Q_t的稀疏模式并支持跳步推断。
Truncated discretized logistic parameterization（图像）：对有序离散像素，用截断离散logistic分布参数化~p_θ(~x_0|x_t)以增强ordinal inductive bias。
新训练损失L_λ：在ELBO的L_vb上叠加辅助交叉熵E[-log ~p_θ(x_0|x_t)]，提升训练稳定性与样本质量（尤其图像）。

第七个问题：请告诉我这篇论文所使用的数据集，包括数据集的名称和来源。

文本：text8（Matt Mahoney text8 dataset，[28]，字符级，27 token，长度256切块评测）；LM1B / One Billion Word Benchmark（Chelba et al. 2013，[6]，使用sentencepiece词表大小8192、序列长度128打包训练）。图像：CIFAR-10（Krizhevsky et al. 2009，[27]）。

第八个问题：请列举这篇论文评估方法的所有指标，并简要说明这些指标的作用。

NLL（negative log-likelihood）：文本用bits/char（text8）或由困惑度等价衡量；图像用bits per dimension（bpd）。作用：衡量生成模型对数据分布的拟合/压缩能力，越低越好。
Perplexity（LM1B）：语言建模常用指标，等价于指数化的平均负对数似然，越低越好。
IS（Inception Score，CIFAR-10）：衡量样本“可辨识度+多样性”的启发式指标，越高越好。
FID（Fréchet Inception Distance，CIFAR-10）：比较生成样本与真实样本在Inception特征空间的分布距离，越低越好，更常用作样本质量指标。
Sample time（采样时间，秒）：衡量生成速度（与inference steps相关），越低越好。
Model steps / inference steps（推断步数）：不是指标本身但作为效率维度报告，用于展示质量-速度折中（如1000/256/20步）。

第九个问题：请总结这篇论文实验的表现，包含具体的数值表现和实验结论。

text8（Table 1，bits/char↓，采样时间↓）：1000步下，D3PM absorbing（mask，L_{λ=0.01}）达到≤1.45±0.02（3.4±0.3s），优于D3PM uniform（≤1.61±0.02）与D3PM NN（≤1.59±0.03）；在256步下，D3PM absorbing仍为≤1.47±0.03（0.598±0.002s）；在20步下，D3PM absorbing为≤1.56±0.04（0.0785±0.0003s）。总体结论：mask/absorbing扩散在字符级最强，并能在少步推断下保持较好NLL，但仍弱于强自回归Transformer-XL（1.08）等。LM1B（Table 2，Perplexity↓）：D3PM absorbing在1000/128/64步分别为76.9±2.3 / 80.1±1.2 / 83.6±6.1，显著优于uniform的137.9±2.1 / 139.2±1.2 / 145.0±1.2；NN更差（149.5±1.3等）。说明：离散扩散可扩展到8192大词表，且absorbing最有效，embedding邻近并不一定带来收益。CIFAR-10（Table 3）：最佳D3PM Gauss+logistic（L_{λ=0.001}）达到IS 8.56±0.10、FID 7.34±0.19、NLL≤3.435±0.007；相比连续DDPM（Ho et al.）的DDPM L_simple：IS 9.46±0.11、FID 3.17、NLL≤3.75，D3PM在NLL上更优、样本质量接近但FID仍落后顶级连续扩散；且引入L_λ能显著提升离散模型（如D3PM Gauss从FID 15.30→8.34，IS 7.75→8.54）。综合结论：transition matrix选择是关键设计点；absorbing对文本最有效、discretized Gaussian+ordinal logistic对图像最有效；辅助CE损失与合适噪声日程能明显改善训练与样本质量。

第十个问题：请清晰地描述论文所作的工作，分别列举出动机和贡献点以及主要创新之处。

动机：1) 连续DDPM在图像/音频成功，但离散数据（文本、量化图像）上缺少同等级别的扩散建模框架与经验，尤其在大词表/长序列与高质量图像上；2) 既有离散扩散多采用uniform腐蚀，无法利用离散数据的结构（图像的有序/局部性、文本的mask与潜在语义相似性）；3) 需要更稳定的训练目标与更可解释的噪声日程来驱动离散扩散。贡献点：1) 提出并系统化D3PM框架：用一般Q_t矩阵描述离散扩散，推广multinomial diffusion，允许注入结构化腐蚀。2) 设计多类structured transition matrices：discretized Gaussian、embedding kNN/矩阵指数、absorbing state等，并实证“Q_t选择显著影响文本与图像效果”。3) 建立概念连接：证明BERT可视为“一步扩散”；构造视角说明自回归模型与生成式MLM可被表述为特定离散扩散过程。4) 提出训练改进：辅助交叉熵的混合损失L_λ提升训练与样本质量；提出基于互信息I(x_t;x_0)的噪声日程，适配一般结构化Q_t。5) 实证结果：文本上在text8强于多数非自回归基线并在LM1B证明可扩展；图像上CIFAR-10达到接近连续DDPM的样本质量并在对数似然上超过连续DDPM基线。主要创新之处：把离散扩散的关键自由度从“固定uniform腐蚀”提升为“可设计的结构化转移矩阵Q_t”，并配套可扩展计算（低秩/矩阵指数）、互信息日程与L_λ训练，使离散扩散在文本与量化图像上同时获得理论统一（连接BERT/AR/MLM）与显著性能提升。

11 KiB Raw Permalink Blame History Unescape Escape

Structured Denoising Diffusion Models in Discrete State-Spaces

11 KiB

Raw Permalink Blame History