From b3bbef795db312f6ac6e7cdbce7fc6569f10ee37 Mon Sep 17 00:00:00 2001 From: Your Name Date: Fri, 30 Jan 2026 00:51:08 +0800 Subject: [PATCH] Add detailed mask-ddpm documentation --- knowledges/mask-ddpm.md | 918 ++++++++++++++++++++++++++++++++++++++++ 1 file changed, 918 insertions(+) create mode 100644 knowledges/mask-ddpm.md diff --git a/knowledges/mask-ddpm.md b/knowledges/mask-ddpm.md new file mode 100644 index 0000000..dcf5048 --- /dev/null +++ b/knowledges/mask-ddpm.md @@ -0,0 +1,918 @@ +# mask‑ddpm 项目说明书(内部长文版|约 3 千字) + +> 目标:以“论文叙述 + 说明书”混合风格,把项目的背景、方法、流程、评估、局限、未来方向完整写清楚。 +> 面向对象:对扩散模型/时序建模不熟悉的读者也能读懂。 +> 注意:不写具体实现代码,只写概念与方法。 + +--- + +## 摘要(Abstract) + +工业控制系统(ICS)数据具有“多变量、强时序、混合类型”的特点。传统生成模型往往只能满足分布或时序之一,难以同时兼顾。我们提出一种 **两阶段混合扩散框架(mask‑ddpm)**:第一阶段学习时序趋势,第二阶段用扩散模型学习残差分布,同时对离散变量采用遮蔽‑恢复式扩散。为解决少数变量主导 KS 的问题,我们进一步提出 **Type‑aware 分治思路**,将程序驱动变量与过程变量分离处理,并配套完善的诊断与评估体系。实验表明,该框架能显著改善分布一致性,同时保持一定的时序结构,且具备可解释的误差定位能力。 + +--- + +## 1. 背景与动机(Why this problem is hard) + +工业数据和普通时间序列有本质区别: + +1) **物理惯性**:许多变量变化缓慢,前一刻会强烈影响后一刻。 +2) **程序驱动**:部分变量来自操作者/调度程序,呈现“阶跃 + 长时间停留”。 +3) **混合类型**:连续传感器与离散状态共存,必须分别处理。 + +如果只用一个模型去学所有变量,会产生明显问题: +- 模型为了对齐分布,会牺牲时序结构 → lag‑1 变差 +- 模型为了时序稳定,会模糊分布 → KS 上升 +- 离散变量如果当连续处理,会出现非法值 → JSD 上升 + +因此,需要一种结构化的建模策略来“拆分矛盾”。 + +--- + +## 2. 问题定义(Problem Formulation) + +给定真实序列 \(X \in \mathbb{R}^{T\times D}\),其中: +- \(T\):时间长度 +- \(D\):变量维度(连续 + 离散) + +目标是学习生成模型 \(G\),输出 \(\hat{X}\),使得: + +**分布一致性**: +\[ +\forall i,\; F^{(i)}_{gen}(x) \approx F^{(i)}_{real}(x) +\] + +**时序一致性**: +\[ +\rho_1(\hat{x}^{(i)}) \approx \rho_1(x^{(i)}) +\] + +**离散合法性**: +\[ +\hat{x}^{(j)} \in \mathcal{V}_j +\] + +其中 \(\rho_1\) 表示 lag‑1 相关,\(\mathcal{V}_j\) 是离散变量的合法词表。 + +--- + +## 3. 方法概览(Method Overview) + +核心设计是 **两阶段 + 混合扩散**: + +### 阶段 1:时序趋势建模 +用序列模型学习“整体趋势”。直觉上,这一步只负责回答“序列怎么变化”。 + +### 阶段 2:分布残差建模 +用扩散模型学习“趋势以外的残差”,修正分布形状。直觉上,这一步只负责回答“数值分布像不像”。 + +这种解耦让“时序一致性”与“分布一致性”不再直接冲突。 + +--- + +## 4. 模型结构(Model Details) + +### 4.1 连续变量扩散(DDPM) + +扩散过程: +\[ + x_t = \sqrt{\bar{\alpha}_t}\,x_0 + \sqrt{1-\bar{\alpha}_t}\,\epsilon,\quad \epsilon \sim \mathcal{N}(0,I) +\] + +**解释**: +- \(x_0\) 是真实残差 +- \(x_t\) 是加噪后的数据 +- 模型学习从 \(x_t\) 还原 \(x_0\) 或 \(\epsilon\) + +### 4.2 离散变量扩散(Mask Diffusion) + +离散变量通过“遮蔽 + 恢复”建模: +- 随机遮蔽部分 token +- 学习预测原始 token + +这样保证离散输出 **合法且可解释**。 + +### 4.3 时序模块(Temporal GRU) + +GRU 用于学习连续序列的趋势: +- 输入:连续序列 +- 输出:趋势序列 +- 用于构建残差:\(x_{resid} = x - trend\) + +直观理解: +- GRU 负责“走向” +- 扩散负责“修正细节” + +--- + +## 5. 损失函数设计(Loss Design) + +### 5.1 连续损失 + +\[ +\mathcal{L}_{cont} = +\begin{cases} +\|\hat{\epsilon}-\epsilon\|^2 & (预测噪声)\\ +\|\hat{x}_0-x_0\|^2 & (预测原值) +\end{cases} +\] + +**解释**:衡量“去噪后是否接近真实残差”。 + +### 5.2 离散损失 + +\[ +\mathcal{L}_{disc} = \frac{1}{|\mathcal{M}|}\sum_{(i,t)\in\mathcal{M}} CE(\hat{p}_{i,t}, y_{i,t}) +\] + +**解释**:只对被遮蔽的 token 做交叉熵,确保离散预测正确。 + +### 5.3 总损失 + +\[ +\mathcal{L} = \lambda \mathcal{L}_{cont} + (1-\lambda)\mathcal{L}_{disc} +\] + +**解释**:\(\lambda\) 决定分布与离散的权衡。 + +### 5.4 额外增强(可选) + +**SNR 权重**: +\[ +\mathcal{L}_{snr} = \frac{\text{SNR}_t}{\text{SNR}_t+\gamma}\,\mathcal{L}_{cont} +\] + +**分位数对齐**: +\[ +\mathcal{L}_Q = \frac{1}{K}\sum_k \|Q_k(x_{real}) - Q_k(x_{gen})\|_1 +\] + +这些项有助于降低 KS,但可能牺牲时序一致性。 + +--- + +## 6. 评估指标(Evaluation Metrics) + +### 6.1 KS(分布一致性) +\[ +KS_i = \sup_x |F^{(i)}_{gen}(x) - F^{(i)}_{real}(x)| +\] + +**解释**:越小代表分布越接近。 + +### 6.2 JSD(离散一致性) +\[ +JSD(P,Q)=\tfrac12 KL(P\|M)+\tfrac12 KL(Q\|M) +\] + +**解释**:衡量离散分布差异。 + +### 6.3 Lag‑1 Diff(时序一致性) +\[ +\Delta_{lag1} = \frac{1}{d}\sum_i |\rho_1(\hat{x}_i) - \rho_1(x_i)| +\] + +**解释**:衡量相邻时刻相关性偏差。 + +--- + +## 7. 诊断与分治思想(Type‑aware) + +现实中,少数变量会主导 KS: +- setpoint/demand(程序驱动) +- actuator(饱和/停留) +- derived tags(确定性映射) + +因此我们提出 Type‑aware 分治: + +| 类型 | 特性 | 处理思路 | +|------|------|---------| +| Type1 | 程序驱动 | 单独建模/重采样 | +| Type2 | 控制器输出 | 条件生成 | +| Type3 | 执行器位置 | 状态 + 停留模型 | +| Type4 | PV 过程量 | 扩散建模 | +| Type5 | 派生变量 | 确定性映射 | +| Type6 | 辅助量 | 简单统计模型 | + +当前实现为 **KS‑only baseline**(经验重采样),只用于诊断上界。 + +--- + +## 8. 方法优势与局限 + +### 优势 +- 将时序与分布解耦,训练更稳定 +- 连续/离散混合扩散保证合法性 +- 诊断工具完整,可定位问题变量 + +### 局限 +- Type1/2/3 仍是难点 +- KS 与时序存在 trade‑off +- KS‑only baseline 破坏联合分布 + +--- + +## 9. 未来方向 + +1) Type1/2/3 条件生成器替代重采样 +2) Type4 加工况 embedding +3) 增加跨变量相关性评估 + +--- + +## 10. 结论 + +mask‑ddpm 通过“两阶段趋势 + 扩散残差”实现了更平衡的 ICS 序列生成框架。项目已经在大多数变量上取得合理分布对齐,但仍需针对程序驱动变量进行专门建模。该框架提供了一个清晰可扩展的研究路径。 + +--- + +## 附录:公式解释简表 + +| 公式 | 含义 | +|------|------| +| DDPM 加噪 | 描述连续变量如何被噪声腐蚀 | +| 连续损失 | 衡量去噪结果与真实残差距离 | +| 离散交叉熵 | 衡量遮蔽 token 是否正确恢复 | +| KS | 分布最大偏差 | +| JSD | 离散分布偏差 | +| Lag‑1 Diff | 时序相关差异 | + + +--- + +# Part 1 / 4 — 方法与理论基础(约 5k) + +> 本部分重点:把“这个方法为什么合理”讲清楚,建立读者对整体框架的直觉与理论基础。 + +## 1.1 工业时序生成的独特性 + +工业控制系统(ICS)数据和常规时序数据(如股票、天气)有本质差别。最关键的三点是: + +**(a) 强物理约束** +许多过程变量受到物理规律约束,比如液位变化不可能突然跳跃,压力和温度的变化速度有上限。这意味着模型必须尊重“惯性”与“平滑性”。 + +**(b) 强程序驱动** +工业系统中存在大量“外部控制信号”,例如设定值(setpoint)、需求(demand)、运行模式。这些变量不是由过程自然演化产生,而是外部程序/操作者指令造成。它们往往呈现“阶跃+停留”模式。 + +**(c) 混合变量类型** +同时存在连续变量(传感器、控制量)和离散变量(状态、模式、告警)。如果把离散变量强行当连续变量,会造成语义错误,例如出现“介于运行/停机之间”的无意义状态。 + +因此,工业时序生成不是单纯的“预测下一步”,而是需要同时兼顾分布、时序、离散合法性。 + +--- + +## 1.2 为什么单一模型会失败 + +如果用单一的序列模型(例如 LSTM/Transformer)去同时优化分布与时序,通常会出现以下冲突: + +- **分布损失优化 → 时序退化** + 模型为了匹配每个变量的分布,会倾向于忽略时间结构,生成“看起来像分布,但像噪声”的序列。 + +- **时序损失优化 → 分布退化** + 模型为了保持时序连续性,生成的数值往往过于平滑,导致分布偏离真实数据(尤其重尾、尖峰)。 + +- **离散变量错误** + 离散变量被当作连续变量,会出现非法 token,导致 JSD 增大。 + +因此,必须引入结构性拆分:让不同模块只负责自己擅长的部分。 + +--- + +## 1.3 设计原则:解耦与专职化 + +本项目遵循三条核心原则: + +**原则 1:解耦“时序”与“分布”** +- 时序结构由 Temporal 模块负责 +- 分布细节由 Diffusion 模块负责 + +**原则 2:连续与离散分开建模** +- 连续变量适合高斯扩散 +- 离散变量适合 mask‑diffusion + +**原则 3:对难学变量分类处理** +- 程序驱动变量(Type1)不适合 DDPM +- 执行器变量(Type3)需要额外模型 + +这些原则构成了本项目的总体方法论。 + +--- + +## 1.4 两阶段框架的理论直觉 + +两阶段方法可以理解为: + +\[ +X = \text{Trend}(X) + \text{Residual}(X) +\] + +**趋势部分**:决定序列“怎么走”,例如逐渐上升/下降,保持物理惯性。 +**残差部分**:决定数值“长什么样”,例如分布形状、重尾、异常点等。 + +如果直接用一个模型去学 \(X\),它必须同时解决趋势与分布问题。而我们拆成两部分后: +- 第一阶段(GRU)只学趋势 +- 第二阶段(Diffusion)只学残差 + +这样能显著减少“时序 vs 分布”的冲突。 + +--- + +## 1.5 扩散模型为什么适合分布对齐 + +扩散模型(DDPM)是一类生成式模型,核心思想是: +1) 逐步加噪,把数据变成纯噪声 +2) 逐步去噪,恢复真实分布 + +数学形式: +\[ + x_t = \sqrt{\bar{\alpha}_t}\,x_0 + \sqrt{1-\bar{\alpha}_t}\,\epsilon +\] + +去噪的目标是预测 \(\epsilon\) 或 \(x_0\)。 + +**优点**: +- 可以拟合复杂、多峰、重尾分布 +- 不依赖显式的概率密度函数 + +这正是 ICS 数据中“分布复杂”的现实需求。 + +--- + +## 1.6 为什么离散变量要用 mask‑diffusion + +离散变量的关键问题是“语义合法性”。如果直接用连续扩散,会生成不合法值(例如 0.3、1.7 等),导致模型失效。 + +mask‑diffusion 的思路: +1) 随机遮蔽部分 token +2) 模型预测被遮蔽 token + +损失是交叉熵: +\[ +\mathcal{L}_{disc} = \frac{1}{|\mathcal{M}|}\sum_{(i,t)\in\mathcal{M}} CE(\hat{p}_{i,t},y_{i,t}) +\] + +这样保证输出必然来自 vocab,语义上合法。 + +--- + +## 1.7 为什么需要 Type‑aware 分治 + +即使有两阶段 + 混合扩散,仍然会发现 KS 被少数变量主导: + +- Type1(setpoint/demand)几乎是“程序信号” +- Type3(执行器)具有“停留+饱和”特性 +- Type5(派生变量)是确定性函数 + +这些变量从统计机制上就不适合扩散模型,因此需要额外设计。 + +Type‑aware 的意义是: +- 把“扩散学不好的变量”剥离出去 +- 让扩散专注于真正适合它的变量(Type4) + +--- + +## 1.8 指标设计的意义(直觉解释) + +我们采用三类核心指标: + +**(a) KS:分布对齐** +衡量生成分布与真实分布最大差距,越小越好。 + +**(b) JSD:离散一致性** +衡量离散状态频率是否接近真实。 + +**(c) Lag‑1 Diff:时序一致性** +衡量相邻时刻相关结构是否接近真实。 + +这三个指标对应三个核心目标:分布、时序、合法性。 + +--- + +## 1.9 理论层面的 trade‑off + +可以理解为: + +- KS 低 → 表示分布好 +- Lag‑1 diff 低 → 表示时序好 + +但在实践中: +- 如果模型过度优化 KS,序列可能变成“随机抽样” → 时序崩坏 +- 如果模型过度优化时序,分布会过于平滑 → KS 上升 + +因此,一个好的模型必须在二者之间找到平衡点。这正是本项目提出两阶段框架的核心动机。 + +--- + +## 1.10 小结 + +本部分给出了方法的理论基础: + +1) ICS 数据复杂且混合类型,单一模型难以兼顾 +2) 两阶段结构用于解耦时序与分布 +3) 混合扩散用于处理连续与离散 +4) Type‑aware 分治用于处理“扩散难学”的变量 + +下一部分将详细介绍**训练流程与损失设计**。 + + +--- + +# Part 2 / 4 — 训练流程与损失设计(约 5k) + +> 本部分重点:让普通读者清楚“模型训练到底在做什么、每一步优化的目标是什么、为什么需要这些 loss”。 + +## 2.1 训练流程总览(高层视角) + +整个训练分为两个阶段: + +1) **Temporal Stage**:训练一个时序模型(GRU),学习序列趋势。 +2) **Diffusion Stage**:训练扩散模型,学习趋势残差的分布。 + +换句话说,训练不是一次性完成,而是先学“怎么变化”,再学“变化后的数值细节”。 + +--- + +## 2.2 Temporal Stage:学趋势的意义 + +工业过程的动态通常平滑且具有惯性。假设我们直接用扩散模型学习整个序列,那么它必须同时完成“序列走向”和“数值分布”的建模任务。这样会产生冲突: + +- 过度优化分布 → 序列变随机 +- 过度优化时序 → 分布变窄 + +Temporal Stage 的目的就是先把“走向”固定住。 + +### 训练方式(直觉) +- 输入:连续变量序列 +- 目标:预测下一时刻的连续序列 +- 损失:MSE + +这样模型学到的是“趋势结构”,而不是复杂分布。 + +--- + +## 2.3 Diffusion Stage:学残差分布 + +在 Temporal Stage 得到趋势序列 \(T\) 后,我们构造残差: +\[ +R = X - T +\] + +Diffusion Stage 的目标是拟合残差分布。这样最终生成结果为: +\[ +\hat{X} = \hat{R} + T +\] + +**直观理解**: +- 趋势提供骨架 +- 残差提供“真实的噪声与细节” + +--- + +## 2.4 连续分支损失设计 + +### 基本损失 +在扩散中,我们可以选择预测噪声 \(\epsilon\),或直接预测原始 \(x_0\): + +\[ +\mathcal{L}_{cont} = +\begin{cases} +\|\hat{\epsilon} - \epsilon\|^2 & (eps 预测)\\ +\|\hat{x}_0 - x_0\|^2 & (x0 预测) +\end{cases} +\] + +### 为什么要预测 eps 或 x0? +- eps 预测更稳定(扩散原始形式) +- x0 预测更容易做分布校正 + +因此在不同实验中会切换。 + +--- + +## 2.5 离散分支损失设计 + +离散变量使用 mask‑diffusion。训练时随机遮蔽一部分 token: + +\[ +\mathcal{L}_{disc} = \frac{1}{|\mathcal{M}|}\sum_{(i,t)\in\mathcal{M}} CE(\hat{p}_{i,t},y_{i,t}) +\] + +直觉解释: +- 只对被 mask 的 token 计算交叉熵 +- 学到的是“在上下文中恢复正确状态” + +这样避免了离散变量非法输出问题。 + +--- + +## 2.6 总损失与权衡 + +最终损失采用线性加权: +\[ +\mathcal{L} = \lambda\mathcal{L}_{cont} + (1-\lambda)\mathcal{L}_{disc} +\] + +**\(\lambda\) 的作用**: +- \(\lambda\) 大 → 连续分布更好,离散可能退化 +- \(\lambda\) 小 → 离散更好,连续分布可能偏差 + +这是训练中的关键权衡参数。 + +--- + +## 2.7 SNR 加权(为什么需要) + +扩散过程早期噪声大、后期噪声小。直接用统一损失会导致训练不均衡。 +因此引入 SNR 权重: + +\[ +\mathcal{L}_{snr} = \frac{\text{SNR}_t}{\text{SNR}_t+\gamma}\mathcal{L}_{cont} +\] + +直觉解释: +- 在高噪声阶段,降低损失权重 +- 在低噪声阶段,更强调精细结构 + +--- + +## 2.8 分位数损失(为什么对 KS 有效) + +KS 本质是比较分布的 CDF。 +因此加入分位数损失: + +\[ +\mathcal{L}_Q = \frac{1}{K}\sum_k \|Q_k(x_{real}) - Q_k(x_{gen})\|_1 +\] + +直觉解释: +- 让模型对齐分布的关键分位点 +- 尤其改善重尾和尖峰变量 + +--- + +## 2.9 残差统计约束(防止塌缩) + +为了避免残差分布塌缩,加入 mean/std 对齐: + +\[ +\mathcal{L}_{stat} = \|\mu_{gen}-\mu_{real}\|^2 + \|\sigma_{gen}-\sigma_{real}\|^2 +\] + +解释: +- 约束残差均值与方差 +- 防止模型学到“过于平滑”残差 + +--- + +## 2.10 为什么训练会慢(深度解释) + +1) **两阶段训练** + - Temporal 训练 + Diffusion 训练 + - 训练成本几乎翻倍 + +2) **扩散步数大** + - timesteps=600 + - 每次训练/采样都要反复迭代 + +3) **Transformer backbone** + - 自注意力复杂度随序列长度平方增长 + - seq_len=128 时显存和时间增加明显 + +--- + +## 2.11 训练中的常见异常与解释 + +**(a) loss 降得慢** +- 原因:扩散训练本身慢 +- 解决:降低 timesteps 或增大 batch + +**(b) loss 大幅波动** +- 原因:噪声采样随机性 + 分布复杂性 +- 解决:增加 EMA 或降低学习率 + +**(c) lag‑1 差** +- 原因:trend 学得不足或 seq_len mismatch +- 解决:提高 temporal_epochs,并统一 seq_len 与 sample_seq_len + +--- + +## 2.12 小结 + +本部分强调了训练的核心逻辑: +- Temporal Stage 负责时序结构 +- Diffusion Stage 负责分布残差 +- Loss 设计通过多项损失平衡分布与时序 + +下一部分将深入说明评估与诊断体系。 + + +--- + +# Part 3 / 4 — 评估与诊断体系(约 5k) + +> 本部分重点:让读者理解“如何判断模型好坏”,以及“为什么需要诊断工具”。 + +## 3.1 为什么只看 loss 不够 + +训练 loss 只能说明“模型在拟合训练目标”,但不一定等价于真实质量。 +在本项目中,loss 可能降低,但 KS 或 lag‑1 仍可能很差,因为: +- loss 主要优化局部误差,而 KS 衡量整体分布差异 +- 模型可能学到“平均值附近”,但尾部严重缺失 +- 离散变量可能预测错误,但 loss 依旧较小 + +因此,必须使用更贴近目标的评估指标。 + +--- + +## 3.2 分布一致性指标(KS) + +KS 统计量定义为: +\[ +KS_i = \sup_x |F^{(i)}_{gen}(x)-F^{(i)}_{real}(x)| +\] + +**解释**: +- \(F_{gen}\):生成分布的累积分布函数 +- \(F_{real}\):真实分布的累积分布函数 +- KS 表示两条 CDF 曲线的最大距离 + +**直观理解**: +- KS 小 → 生成分布几乎重合 +- KS 大 → 分布偏移明显 + +**注意**:在尖峰/离散化变量上,必须使用 tie‑aware KS,否则会被高估。 + +--- + +## 3.3 离散一致性指标(JSD) + +Jensen‑Shannon Divergence: +\[ +JSD(P,Q)=\tfrac12 KL(P\|M)+\tfrac12 KL(Q\|M) +\] +其中 \(M = (P+Q)/2\)。 + +**解释**: +- 衡量离散分布差异 +- 适合评估状态类变量 +- 越小越好 + +--- + +## 3.4 时序一致性指标(Lag‑1 Diff) + +Lag‑1 相关差异: +\[ +\Delta_{lag1} = \frac{1}{d}\sum_i |\rho_1(\hat{x}_i)-\rho_1(x_i)| +\] + +**解释**: +- 计算每个变量的相邻相关性 +- 衡量“时间上的惯性是否正确” +- 越小越好 + +--- + +## 3.5 为什么要做诊断 + +即使平均 KS 下降,也可能是“部分变量非常好,部分变量非常差”。 +这会误导优化方向。因此必须诊断: + +- 哪些变量最差? +- 它们的分布差在什么区间? +- 它们属于哪种类型? + +--- + +## 3.6 诊断工具 1:Per‑feature KS 排序 + +我们用 `ranked_ks.py` 输出: +- 变量 KS 从高到低排序 +- 观察“top‑N 主导问题变量” + +**意义**: +- 精准定位瓶颈 +- 避免盲目改模型 + +--- + +## 3.7 诊断工具 2:CDF 图 + +用 `diagnose_ks.py` 绘制 CDF 对比: +- 真实 vs 生成 +- 可直观看到“尾部缺失 / 中位数偏移 / 饱和堆积” + +这是理解 KS 高的最直接手段。 + +--- + +## 3.8 诊断工具 3:Filtered KS + +Filtered KS 会剔除: +- 标准差为 0 的变量 +- KS 极端异常的变量 + +**意义**: +- 判断“整体模型是否已经合理” +- 证明 KS 被少数变量拖垮 + +--- + +## 3.9 Type‑wise 评估 + +为了对应 Type‑aware 分治策略,我们也统计: +- Type1 KS 均值 +- Type2 KS 均值 +- Type3 KS 均值 +- … + +这样可以看到不同类型变量的贡献。 + +--- + +## 3.10 评估指标的 trade‑off + +现实中常见情况: +- KS 下降 → lag‑1 上升 +- lag‑1 下降 → KS 上升 + +因此需要在实验中明确目标: +- 若目标是分布一致性,接受时序退化 +- 若目标是时序一致性,接受分布偏差 + +这也是论文中必须讨论的权衡点。 + +--- + +## 3.11 KS‑only baseline 的作用 + +KS‑only baseline 是一种诊断工具: +- 把难学变量替换为真实分布采样 +- 观察整体 KS 降到的“上限” + +意义: +- 如果 KS 仍高 → 说明模型整体分布学得差 +- 如果 KS 明显降 → 说明瓶颈集中在少数变量 + +--- + +## 3.12 评估流程的完整逻辑 + +评估流程包含: +1) 生成数据(generated.csv) +2) 与真实数据对比,计算 KS/JSD/lag‑1 +3) 输出 eval.json +4) 额外诊断:CDF/Rank/Filtered +5) 若启用后处理,再评估 eval_post.json + +--- + +## 3.13 小结 + +本部分说明: +- 为什么必须用 KS/JSD/lag‑1 评估 +- 为什么要做 per‑feature 诊断 +- 为什么引入 Type‑wise 分治评估 + +下一部分将讨论实验观察、局限与未来方向。 + + +--- + +# Part 4 / 4 — 实验观察、局限与未来方向(约 5k) + +> 本部分重点:总结实验现象,解释为什么会出现这些现象,并给出未来工作的方向。 + +## 4.1 典型实验现象回顾 + +在大量实验中,我们观察到几个稳定现象: + +1) **KS 可以明显下降,但 lag‑1 可能变差** + - 当加强分布对齐(quantile loss、校准)时,分布更好,但时序一致性下降 + +2) **离散 JSD 相对稳定** + - 离散 mask diffusion 保证 token 合法性 + - JSD 通常不会像 KS 那样剧烈波动 + +3) **少数变量主导 KS** + - Type1/2/3 是 KS 的主要来源 + - 说明整体分布其实已经合理,问题集中在少数难学变量 + +--- + +## 4.2 为什么 Type1/2/3 变量难学 + +**Type1(setpoint/demand)** +- 本质是外部程序驱动,而非系统响应 +- 呈现长时间常数 + 突然阶跃 +- 扩散模型更擅长连续变化,难以准确复现这种跳变 + +**Type2(controller output)** +- 受控制算法约束(PID) +- 值域常常饱和于 0 或 100 +- 分布极端尖峰 + +**Type3(actuator positions)** +- 常有停留、饱和和离散档位 +- 实际变化规律与简单连续噪声不同 + +这些特性说明:必须用专门的模型去建模,而不是依靠通用 DDPM。 + +--- + +## 4.3 KS‑only baseline 的意义与局限 + +KS‑only baseline(经验重采样)告诉我们: +- **理论上 KS 能到多低** +- 确认瓶颈是否在少数变量 + +但它的局限也非常明显: +- 破坏变量之间的依赖关系 +- 无法保证联合分布一致 +- 只能作为诊断工具,而非最终生成器 + +--- + +## 4.4 时序 vs 分布的理论矛盾 + +在本项目中,时序与分布的矛盾非常典型: + +- 如果只关注分布:序列会失去惯性,变成“随机抽样” +- 如果只关注时序:序列会变平滑,失去重尾或多模态特征 + +两阶段架构正是为了缓解这种矛盾,但仍无法彻底消除。 + +--- + +## 4.5 为什么需要条件建模(Conditioning) + +真实工业数据往往依赖于“工况/模式”。 +例如: +- 不同 setpoint 会导致不同 PV 分布 +- 不同状态会导致执行器行为差异 + +因此,未来需要在模型中加入条件: + +\[ +P(X|C)\quad \text{而不是}\quad P(X) +\] + +这种条件建模可以显著减少分布误差。 + +--- + +## 4.6 未来方向(具体可操作的路线) + +### 方向 1:Type1 程序生成器 +- 用 HMM 或 change‑point 模型生成 setpoint/demand +- 再作为条件输入扩散模型 + +### 方向 2:Type2 控制器模拟器 +- 训练一个小型控制器网络 +- 根据 setpoint + PV 输出控制量 + +### 方向 3:Type3 执行器动力学模型 +- 用“状态 + 停留 + 速率”建模 +- 比纯重采样更真实 + +### 方向 4:Type4 PV 的条件扩散 +- 加入工况 embedding +- 在不同 regime 下分布更一致 + +--- + +## 4.7 实验写作建议(论文表达角度) + +在写论文时,可以这样组织: + +1) 展示 KS/JSD/lag‑1 的全局指标 +2) 展示 per‑feature KS 排序 +3) 强调“少数变量主导错误” +4) 提出 Type‑aware 分治策略 +5) 用 KS‑only baseline 作为诊断上界 + +这样能显得方法合理且有深度。 + +--- + +## 4.8 结论总结 + +本项目提供了一条清晰路径: + +- 先解耦时序与分布(两阶段) +- 再解决连续与离散(混合扩散) +- 最后用 Type‑aware 分治处理难变量 + +因此,它不仅是一个生成模型,更是一套“如何诊断、如何改进”的系统性方法。 + +--- + +# 全文总结 + +mask‑ddpm 的核心贡献在于 **结构性拆解问题**: +- 时序结构与分布对齐分开建模 +- 连续与离散分开扩散 +- 难变量类型单独处理 + +通过这些结构化手段,本项目为工业时序生成提供了一个可解释、可扩展的方案。它不是单纯追求指标最优,而是提供了一套完整的研究路径。 +