Files
mask-ddpm/report.md

10 KiB
Raw Blame History

mask-ddpm 项目说明书(完整详细版)

本文档是“说明书级别”的完整描述,面向首次接触项目的同学。 目标是让不了解扩散/时序建模的人也能理解:项目是什么、怎么跑、每个文件干什么、每一步在训练什么、为什么这么设计。

适用范围:当前仓库代码(以 example/config.json 为主配置)。


目录

  1. 项目目标与研究问题
  2. 数据与特征结构
  3. 预处理与统计文件
  4. 模型总体架构
  5. 训练流程(逐步骤)
  6. 采样与导出流程
  7. 评估体系与指标
  8. 诊断工具与常用脚本
  9. Typeaware按类型分治设计
  10. 一键运行与常见命令
  11. 输出文件说明
  12. 当前配置与关键超参
  13. 常见问题与慢的原因
  14. 已知限制与后续方向
  15. 文件树(精简版)
  16. 文件职责(逐文件说明)

1. 项目目标与研究问题

本项目目标生成工业控制系统ICS多变量时序数据满足以下三点

  • 分布一致性:每个变量的统计分布接近真实(用 KS 衡量)
  • 时序一致性序列结构合理lag1 相关性、趋势符合真实
  • 离散合法性:离散变量(状态/模式)必须是合法 token 且分布合理JSD

核心难点:

  • 时序结构和分布对齐经常相互冲突
  • 真实数据包含“程序驱动/事件驱动”的变量,难以用纯 DDPM 学好

2. 数据与特征结构

数据来源HAI train*.csv.gz(多文件)

特征拆分(见 example/feature_split.json

  • continuous:连续变量(传感器/执行器)
  • discrete:离散变量(状态/模式)
  • time_column:时间列(不参与训练)

3. 预处理与统计文件

脚本:example/prepare_data.py

3.1 连续变量

  • 计算 mean/std
  • 若开启 use_quantile_transform计算分位数表CDF
  • 输出:example/results/cont_stats.json

3.2 离散变量

  • 统计 vocab
  • 输出:example/results/disc_vocab.json

3.3 数据工具

example/data_utils.py 提供:

  • 标准化/反标准化
  • 分位数变换/逆变换
  • 可选后校准quantile calibration

4. 模型总体架构

本项目采用 两阶段 + 混合扩散 架构:

4.1 Stage1 Temporal GRU

  • 目的:学习序列趋势、时序结构
  • 输入:连续变量序列
  • 输出trend趋势序列

4.2 Stage2 Hybrid Diffusion

  • 目的:学习残差分布(把时序和分布解耦)
  • 连续变量Gaussian DDPM
  • 离散变量mask diffusion 分类 head

4.3 Backbone 选择

  • 当前配置:backbone_type = transformer
  • 可选GRU更省显存更稳定

5. 训练流程(逐步骤)

脚本:example/train.py

Step 1Temporal 训练

  • 输入:连续序列
  • GRU teacherforcing 预测下一步
  • LossMSE
  • 输出:temporal.pt

Step 2Diffusion 训练

  • 计算残差:x_resid = x_cont - trend
  • 采样时间步 t
  • 连续:加噪
  • 离散mask token
  • 模型预测 eps / logits

Loss 设计

  • ContinuousMSEeps 或 x0
  • DiscreteCross Entropymask 部分)
  • 总损失:loss = λ * loss_cont + (1-λ) * loss_disc
  • 可选加权:
    • inversestd
    • SNRweighted
    • quantile loss
    • residual stat loss

6. 采样与导出流程

脚本:example/export_samples.py

流程:

  1. 初始化噪声(连续)
  2. 初始化 mask离散
  3. 反扩散 t=T..0
  4. 加回 trend
  5. 反变换quantile/标准化)
  6. 合成 CSV

输出:example/results/generated.csv


7. 评估体系与指标

脚本:example/evaluate_generated.py

连续指标

  • KStieaware
  • quantile diff
  • lag1 correlation

离散指标

  • JSD
  • invalid token 比例

Reference 读取

  • 支持 train*.csv.gz glob
  • 自动汇总所有文件

8. 诊断工具与常用脚本

  • diagnose_ks.pyCDF 可视化
  • ranked_ks.pyKS 贡献排序
  • filtered_metrics.py:过滤异常特征后的 KS
  • program_stats.pyType1 统计
  • controller_stats.pyType2 统计
  • actuator_stats.pyType3 统计
  • pv_stats.pyType4 统计
  • aux_stats.pyType6 统计

9. Typeaware 设计(按类型分治)

在真实 ICS 中,部分变量很难用 DDPM 学到,所以做类型划分:

  • Type1setpoint/demand调度驱动
  • Type2controller outputs
  • Type3actuator positions
  • Type4PV sensors
  • Type5derived tags
  • Type6aux/coupling

脚本:example/postprocess_types.py

当前实现是 KSonly baseline

  • Type1/2/3/5/6 → 经验重采样
  • Type4 → 仍用 diffusion

用途:

  • 快速诊断“KS 最优可达上界”
  • 不保证联合分布真实性

输出:example/results/generated_post.csv


10. 一键运行与常见命令

全流程(推荐)

python example/run_all.py --device cuda --config example/config.json

只评估不训练

python example/run_all.py --skip-prepare --skip-train --skip-export

只训练不评估

python example/run_all.py --skip-eval --skip-postprocess --skip-post-eval --skip-diagnostics

11. 输出文件说明

  • generated.csv:原始 diffusion 输出
  • generated_post.csvKSonly 后处理输出
  • eval.json:原始评估
  • eval_post.json:后处理评估
  • cont_stats.json / disc_vocab.json:统计文件
  • *_stats.jsonType 统计报告

12. 当前配置(关键超参)

来自 example/config.json

  • backbone_type: transformer
  • timesteps: 600
  • seq_len: 96
  • batch_size: 16
  • cont_target: x0
  • cont_loss_weighting: inv_std
  • snr_weighted_loss: true
  • quantile_loss_weight: 0.2
  • use_quantile_transform: true
  • cont_post_calibrate: true
  • use_temporal_stage1: true

13. 为什么运行慢

  1. 两阶段训练temporal + diffusion
  2. 评估要读全量 train*.csv.gz
  3. run_all 默认跑所有诊断脚本
  4. timesteps / seq_len 大

14. 已知限制与后续方向

限制:

  • Type1/2/3 仍主导 KS
  • KSonly baseline 会破坏联合分布
  • 时序和分布存在 tradeoff

方向:

  • 为 Type1/2/3 建条件模型
  • Type4 增加 regime conditioning
  • 联合指标crossfeature correlation

15. 文件树(精简版)

mask-ddpm/
  report.md
  docs/
    README.md
    architecture.md
    evaluation.md
    decisions.md
    experiments.md
    ideas.md
  example/
    config.json
    config_no_temporal.json
    config_temporal_strong.json
    feature_split.json
    data_utils.py
    prepare_data.py
    hybrid_diffusion.py
    train.py
    sample.py
    export_samples.py
    evaluate_generated.py
    run_all.py
    run_compare.py
    diagnose_ks.py
    filtered_metrics.py
    ranked_ks.py
    program_stats.py
    controller_stats.py
    actuator_stats.py
    pv_stats.py
    aux_stats.py
    postprocess_types.py
    results/

16. 文件职责(逐文件说明)

  • prepare_data.py:统计连续/离散特征
  • data_utils.py:预处理与变换函数
  • hybrid_diffusion.py模型主体Temporal + Diffusion
  • train.py:两阶段训练
  • export_samples.py:采样导出
  • evaluate_generated.py:评估指标
  • run_all.py:一键流程
  • postprocess_types.pyTypeaware KSonly baseline
  • diagnose_ks.pyCDF 诊断
  • ranked_ks.pyKS 排序
  • filtered_metrics.py:过滤 KS

结束

如果你需要更“论文式”的版本(加入公式、伪代码、实验表格),可以继续追加。


附录 A公式汇总论文可用版

说明:本附录包含 代码中已有 的核心公式,以及 合理的扩展公式(可作为方法增强/未来工作)。公式写法尽量简洁,但强调“可解释 + 可复现”。

A.1 现有实现可对齐的核心公式

(1) 连续扩散(残差 DDPM

[ x_t = \sqrt{\bar{\alpha}_t},x_0 + \sqrt{1-\bar{\alpha}_t},\epsilon,\quad \epsilon\sim\mathcal{N}(0,I) ]

  • 解释:对残差进行标准 DDPM 加噪

(2) 连续分支损失x0 或 eps 预测)

[ \mathcal{L}{cont} = \begin{cases} | \hat{\epsilon}\theta - \epsilon |^2 & \text{if target=eps}\ | \hat{x}_0 - x_0 |^2 & \text{if target=x0} \end{cases} ]

  • 解释:当前配置使用 cont_target=x0eps

(3) SNR 加权(当前代码可选)

[ \mathcal{L}_{snr} = \frac{\text{SNR}_t}{\text{SNR}t+\gamma},\mathcal{L}{cont} ]

  • 解释:高噪声阶段减小权重

(4) 离散 MaskDiffusion 交叉熵

[ \mathcal{L}{disc} = \frac{1}{|\mathcal{M}|}\sum{(i,t)\in\mathcal{M}} \mathrm{CE}(\hat{p}{i,t}, y{i,t}) ]

  • 解释:只对被 mask 的 token 计算

(5) 总损失

[ \mathcal{L} = \lambda \mathcal{L}{cont} + (1-\lambda)\mathcal{L}{disc} ]

  • 解释:控制分布 vs 离散的权衡

(6) 分位数分布对齐(残差空间)

[ \mathcal{L}{Q} = \frac{1}{K}\sum{k=1}^{K}|Q_k(x_{real}) - Q_k(x_{gen})|_1 ]

  • 解释:对齐分位数,改善 KS

A.2 合理扩展公式(可作为增强项 / 未来工作)

(7) 时序一致性正则Lag1 约束)

[ \mathcal{L}{lag1} = |\rho_1(x{gen}) - \rho_1(x_{real})|_1 ]

  • 解释抑制时序退化lag1 diff

(8) 频谱一致性Temporal PSD

[ \mathcal{L}{spec} = |\log S(\omega; x{gen}) - \log S(\omega; x_{real})|_1 ]

  • 解释:捕捉周期/扫描频率结构

(9) 多尺度 Wasserstein分布 + 时序混合)

[ \mathcal{L}{MSW} = \sum{s\in\mathcal{S}} W_1\big(\phi_s(x_{gen}),\phi_s(x_{real})\big) ]

  • 解释:多尺度对齐,兼顾分布与结构

(10) 条件一致性Typeaware

[ \mathcal{L}{cond} = \mathbb{E}\big[|f{ctrl}(x_{gen}) - f_{ctrl}(x_{real})|_2^2\big] ]

  • 解释:约束控制器/执行器在条件下合理

A.3 评估指标(论文描述版)

(11) 分布对齐KS

[ \text{KS}i = \sup_x |F^{(i)}{gen}(x)-F^{(i)}{real}(x)| ] [ \text{avg_KS} = \frac{1}{d}\sum{i=1}^{d}\text{KS}_i ]

(12) 离散一致性JSD

[ \text{JSD}(P,Q)=\tfrac12 KL(P|M)+\tfrac12 KL(Q|M) ]

(13) 时序偏差Lag1 Diff

[ \Delta_{lag1} = \frac{1}{d}\sum_i |\rho_1(x^{(i)}{gen})-\rho_1(x^{(i)}{real})| ]