From 1cbfc6d53dd3ae24d25b020174f744337d27dfce Mon Sep 17 00:00:00 2001 From: Hongyu Yan <133737661+Markyan04@users.noreply.github.com> Date: Mon, 26 Jan 2026 18:22:48 +0800 Subject: [PATCH] =?UTF-8?q?=E6=96=B0=E5=A2=9E=E6=8F=90=E5=8F=96=E6=89=80?= =?UTF-8?q?=E6=9C=89md=E6=96=87=E4=BB=B6=E7=9A=84=E8=84=9A=E6=9C=AC?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit 所有md文件都会被提取到/papers/md文件夹下 --- copy.cmd | 66 +++++++++++++++++ ...ter On Coverage-Guided Protocol Fuzzing.md | 47 ++++++++++++ .../md/Autoregressive Denoising Diffusion.md | 44 ++++++++++++ ...Conditional Score-based Diffusion Model.md | 44 ++++++++++++ ...enoising Diffusion Probabilistic Models.md | 44 ++++++++++++ ...STG Probabilistic Spatio-Temporal Graph.md | 45 ++++++++++++ ...ile Diffusion Model for Audio Synthesis.md | 47 ++++++++++++ ...M Improves Controllable Text Generation.md | 63 ++++++++++++++++ ...eration using Generative Adversarial Ne.md | 48 +++++++++++++ papers/md/Graph Attention Networks.md | 62 ++++++++++++++++ ...lf-Supervised Masked Graph Autoencoders.md | 58 +++++++++++++++ papers/md/Heterogeneous Graph Transformer.md | 54 ++++++++++++++ .../How Powerful are Graph Neural Networks.md | 59 +++++++++++++++ ...Fuzz Machine Learning for Input Fuzzing.md | 47 ++++++++++++ ... Data with Graph Convolutional Networks.md | 52 ++++++++++++++ ...t Fuzzing with Neural Program Smoothing.md | 60 ++++++++++++++++ ... header trace generation using NetShare.md | 48 +++++++++++++ ...thetic IP header trace generation using.md | 45 ++++++++++++ ...Diffusion Framework for Spatiotemporal .md | 47 ++++++++++++ ...d responsive network traffic generation.md | 58 +++++++++++++++ ...r research and training on ICS security.md | 63 ++++++++++++++++ ...tive Modeling through Stochastic Differ.md | 45 ++++++++++++ ...ation with Graph Convolutional Networks.md | 64 +++++++++++++++++ ...o-Temporal Diffusion Model for Cellular.md | 54 ++++++++++++++ ...ffusion Models in Discrete State-Spaces.md | 61 ++++++++++++++++ ...Ns for Sharing Networked Time Series Da.md | 71 +++++++++++++++++++ ...stbed for research in the design of sec.md | 61 ++++++++++++++++ 27 files changed, 1457 insertions(+) create mode 100644 copy.cmd create mode 100644 papers/md/AFLNet Five Years Later On Coverage-Guided Protocol Fuzzing.md create mode 100644 papers/md/Autoregressive Denoising Diffusion.md create mode 100644 papers/md/CSDI Conditional Score-based Diffusion Model.md create mode 100644 papers/md/Denoising Diffusion Probabilistic Models.md create mode 100644 papers/md/DiffSTG Probabilistic Spatio-Temporal Graph.md create mode 100644 papers/md/DiffWave A Versatile Diffusion Model for Audio Synthesis.md create mode 100644 papers/md/Diffusion-LM Improves Controllable Text Generation.md create mode 100644 papers/md/Flow-based Network Traffic Generation using Generative Adversarial Ne.md create mode 100644 papers/md/Graph Attention Networks.md create mode 100644 papers/md/GraphMAE Self-Supervised Masked Graph Autoencoders.md create mode 100644 papers/md/Heterogeneous Graph Transformer.md create mode 100644 papers/md/How Powerful are Graph Neural Networks.md create mode 100644 papers/md/Learn&Fuzz Machine Learning for Input Fuzzing.md create mode 100644 papers/md/Modeling Relational Data with Graph Convolutional Networks.md create mode 100644 papers/md/NEUZZ Efficient Fuzzing with Neural Program Smoothing.md create mode 100644 papers/md/Practical GAN-based synthetic IP header trace generation using NetShare.md create mode 100644 papers/md/Practical GAN-based synthetic IP header trace generation using.md create mode 100644 papers/md/PriSTI A Conditional Diffusion Framework for Spatiotemporal .md create mode 100644 papers/md/Realistic and responsive network traffic generation.md create mode 100644 papers/md/SWaT a water treatment testbed for research and training on ICS security.md create mode 100644 papers/md/Score-Based Generative Modeling through Stochastic Differ.md create mode 100644 papers/md/Semi-Supervised Classification with Graph Convolutional Networks.md create mode 100644 papers/md/Spatio-Temporal Diffusion Model for Cellular.md create mode 100644 papers/md/Structured Denoising Diffusion Models in Discrete State-Spaces.md create mode 100644 papers/md/Using GANs for Sharing Networked Time Series Da.md create mode 100644 papers/md/WADI a water distribution testbed for research in the design of sec.md diff --git a/copy.cmd b/copy.cmd new file mode 100644 index 0000000..b942a5c --- /dev/null +++ b/copy.cmd @@ -0,0 +1,66 @@ +@echo off +setlocal + +:: ==================================================================== +:: 脚本名称: copy_md_files.cmd +:: 脚本功能: 遍历/papers所有子文件夹,将所有.md文件复制到/papers/md文件夹下。 +:: 作者: [你的名字/公司名,可选] +:: 日期: 2023-10-27 +:: 版本: 1.0 +:: ==================================================================== + +:: 定义源目录和目标目录 +set "SOURCE_DIR=%~dp0papers" +set "TARGET_DIR=%~dp0papers\md" + +echo. +echo ====================================================== +echo 开始复制Markdown文件 +echo ====================================================== +echo. + +:: 检查源目录是否存在 +if not exist "%SOURCE_DIR%" ( + echo 错误:源目录 "%SOURCE_DIR%" 不存在。 + echo 请确保脚本与"papers"文件夹在同一目录下,或者修改SOURCE_DIR变量。 + goto :eof +) + +:: 创建目标目录(如果不存在) +if not exist "%TARGET_DIR%" ( + echo 创建目标目录: "%TARGET_DIR%" + mkdir "%TARGET_DIR%" + if errorlevel 1 ( + echo 错误:无法创建目标目录 "%TARGET_DIR%"。 + goto :eof + ) +) else ( + echo 目标目录 "%TARGET_DIR%" 已存在。 +) + +echo. +echo 正在扫描 "%SOURCE_DIR%" 及其子目录中的 .md 文件... +echo. + +:: 遍历所有子文件夹并复制.md文件 +:: /s: 包含所有子目录 +:: /i: 不区分大小写匹配文件名(这里针对*.md) +:: /y: 覆盖现有文件而不提示 +:: /d: 复制源文件比目标文件新,才进行复制 (可选,这里使用/y覆盖,所以可以省略/d) +:: /h: 复制隐藏和系统文件 (如果.md文件可能是隐藏的) +for /r "%SOURCE_DIR%" %%f in (*.md) do ( + echo 正在复制: "%%f" + copy "%%f" "%TARGET_DIR%" >nul + if errorlevel 1 ( + echo 警告:复制文件 "%%f" 失败。 + ) +) + +echo. +echo ====================================================== +echo Markdown文件复制完成 +echo ====================================================== +echo. + +endlocal +pause diff --git a/papers/md/AFLNet Five Years Later On Coverage-Guided Protocol Fuzzing.md b/papers/md/AFLNet Five Years Later On Coverage-Guided Protocol Fuzzing.md new file mode 100644 index 0000000..051aa8c --- /dev/null +++ b/papers/md/AFLNet Five Years Later On Coverage-Guided Protocol Fuzzing.md @@ -0,0 +1,47 @@ +# AFLNet Five Years Later On Coverage-Guided Protocol Fuzzing + + + +**第一个问题**:请对论文的内容进行摘要总结,包含研究背景与问题、研究目的、方法、主要结果和结论,字数要求在150-300字之间,使用论文中的术语和概念。 + +协议实现是stateful且message-driven,同一消息在不同内部state下可能产生不同response,使传统coverage-guided greybox fuzzing(如AFL)难以有效测试网络协议。论文旨在对AFLNet(首个code- and state-coverage-guided protocol fuzzer)给出扩展技术讨论与大规模实证评估,并回顾其五年影响。方法上,AFLNet以message sequence作为seed,基于pcap录制/回放构建初始corpus,在线学习implemented protocol state machine(IPSM),用response code等标识state并统计#fuzz/#selected/#paths;在seed selection中交织queue顺序与state heuristics以导向progressive states;对序列分割为M1/M2/M3并在M2上施加protocol-aware与byte-level mutation;在同一bitmap中同时维护branch coverage与state transition coverage以判定interesting。结果显示:state feedback单独使用在部分对象上显著优于black-box;加入state feedback使state coverage平均提升35.67×,但对code coverage提升总体不显著;交织式seed-selection在综合code/state覆盖上最稳健。结论:state反馈能显著扩大协议状态空间探索,但“state定义”与吞吐等仍是关键挑战。 + +**第二个问题**:请提取论文的摘要原文,摘要一般在Abstract之后,Introduction之前。 + +Abstract—Protocol implementations are stateful which makes them difficult to test: Sending the same test input message twice might yield a different response every time. Our proposal to consider a sequence of messages as a seed for coverage-directed greybox fuzzing, to associate each message with the corresponding protocol state, and to maximize the coverage of both the state space and the code was first published in 2020 in a short tool demonstration paper. AFLNet was the first code- and state-coverage-guided protocol fuzzer; it used the response code as an indicator of the current protocol state. Over the past five years, the tool paper has gathered hundreds of citations, the code repository was forked almost 200 times and has seen over thirty pull requests from practitioners and researchers, and our initial proposal has been improved upon in many significant ways. In this paper, we first provide an extended discussion and a full empirical evaluation of the technical contributions of AFLNet and then reflect on the impact that our approach and our tool had in the past five years, on both the research and the practice of protocol fuzzing. + +**第三个问题**:请列出论文的全部作者,按照此格式:`作者1, 作者2, 作者3`。 + +Ruijie Meng, Van-Thuan Pham, Marcel Böehme, Abhik Roychoudhury + +**第四个问题**:请直接告诉我这篇论文发表在哪个会议或期刊,请不要推理或提供额外信息。 + +文段未给出会议或期刊信息。 + +**第五个问题**:请详细描述这篇论文主要解决的核心问题,并用简洁的语言概述。 + +核心问题是:如何将面向“单输入/近似无状态程序”的coverage-guided greybox fuzzing扩展到网络协议这种stateful、需要message sequence驱动且状态空间巨大的目标上,并同时兼顾code coverage与state space coverage。传统做法要么靠手工协议模型的stateful blackbox fuzzing(依赖不完备的状态/数据模型,且不保留“有趣”用例继续进化),要么把消息序列拼成文件交给AFL(无法聚焦关键消息、易生成大量无效序列)。论文围绕AFLNet提出并系统评估的一套解法:以消息序列为seed、在线推断IPSM并把状态反馈纳入引导与“interesting”判定,从而更系统地探索协议实现的状态与代码。简洁概述:让灰盒模糊测试“看见并利用协议状态”,从而可有效fuzz stateful protocols。 + +**第六个问题**:请告诉我这篇论文提出了哪些方法,请用最简洁的方式概括每个方法的核心思路。 + +(1) 消息序列作为seed的SCGF:把sequence of messages而非单文件输入作为进化种子,适配stateful server。(2) 录制/回放驱动(pcap→parse→send):从真实流量提取初始语料并可重复回放以执行fuzzing迭代。(3) 轻量协议学习IPSM(implemented protocol state machine):从response序列抽取state transitions,在线增量构建/更新状态机并维护#fuzz/#selected/#paths统计。(4) 面向progressive states的引导:按“盲点/新近/高产出”启发式选state,再在到达该state的子语料上做AFL式优先级选序列。(5) 交织式seed-selection:在coverage plateau时切换到state-heuristic重策略,否则按AFL队列顺序,兼顾吞吐与导向。(6) 三段式序列变异M1/M2/M3:固定前缀M1保证到达目标state,只在候选段M2做变异并继续执行后缀M3以观察传播效应。(7) 协议感知变异算子:对消息做replacement/insertion/duplication/deletion并与byte-level mutation堆叠。(8) 统一bitmap记录code+state覆盖:为state transition预留bitmap区域(SHIFT_SIZE),用分支与状态转移共同定义interesting seeds。 + +**第七个问题**:请告诉我这篇论文所使用的数据集,包括数据集的名称和来源。 + +基准为ProFuzzBench(Natella & Pham, ISSTA 2021工具/基准论文:ProFuzzBench: A benchmark for stateful protocol fuzzing),论文在其默认集成的网络协议实现(如Bftpd、DNSmasq、OpenSSH、TinyDTLS、Live555、ProFTPD、Pure-FTPd、Exim、DCMTK、Kamailio、forked-daapd、lightFTP等)上进行评测。 + +**第八个问题**:请列举这篇论文评估方法的所有指标,并简要说明这些指标的作用。 + +(1) Code coverage:以branch coverage(分支覆盖数)衡量探索到的代码范围,“未覆盖代码无法触发漏洞”。(2) State space coverage:以IPSM中构建的state transitions数量(以及状态数量/覆盖)衡量探索到的协议状态空间。(3) Vargha-Delaney effect size(Â12):衡量两组独立实验结果的优势概率/效应量,用于判断差异是否具有“显著优势”(文中以Â12≥0.71或≤0.29作为显著门槛)。(4) 时间维度覆盖趋势:branch covered over time(24小时曲线)用于对比不同变体达到同等覆盖所需时间(如提到“约6×/4×更快达到相同分支数”)。 + +**第九个问题**:请总结这篇论文实验的表现,包含具体的数值表现和实验结论。 + +RQ1(仅state反馈):AFLNetDARK(仅state feedback)在12个ProFuzzBench对象中有6个在code coverage上显著优于AFLNetBLACK(无code/state反馈):Bftpd、DNSmasq、Kamailio、lightFTP、ProFTPD、Pure-FTPd;并在OpenSSH与TinyDTLS上分别约6×与4×更快达到与BLACK相同的分支数;对state数量很少的对象(如DCMTK最终仅3个state)提升不明显。结论:当state数量“足够”时,state反馈可作为无代码插桩场景的有效引导。RQ2(state+code vs 仅code,表1):AFLNetQUEUE相对AFLNetCODE平均branch coverage提升仅+0.01%,但state coverage平均提升+35.67×;例如OpenSSH的state数从93.5提升到30480.9(+325.00×,Â12=1.00),DNSmasq从282.5到27364.0(+95.85×,Â12=1.00),Bftpd从170.5到334.0(+0.96×,Â12=1.00)。结论:额外state反馈极大扩展状态空间探索,但对代码覆盖提升整体不显著。RQ3(seed-selection策略,表2/3):交织策略AFLNet在综合表现上最好;其相对AFLNetQUEUE平均branch coverage为-0.52%但相对AFLNetIPSM为+1.65%,同时state coverage相对AFLNetQUEUE为+5.77%、相对AFLNetIPSM为+12.77%。结论:交织式seed-selection总体上最稳健,且state覆盖与code覆盖不呈简单正相关。 + +**第十个问题**:请清晰地描述论文所作的工作,分别列举出动机和贡献点以及主要创新之处。 + +动机:网络协议实现是stateful reactive systems,输入是message sequence而非单文件;AFL类CGF缺乏状态与序列结构认知,SBF又依赖手工模型且不做进化保种,导致难以深入状态空间并发现实现偏差/隐藏转移与漏洞。 + +贡献点:(1) 系统化阐释AFLNet:把消息序列纳入灰盒进化框架,并将state coverage与code coverage共同作为反馈信号。(2) 在线轻量IPSM学习与引导:通过response code等构造implemented protocol state machine,并用#fuzz/#selected/#paths等统计驱动state选择与导向。(3) 面向目标state的序列分割与变异策略(M1/M2/M3):既保证可达性又允许在关键段落聚焦变异。(4) 统一bitmap编码分支与状态转移覆盖:在AFL bitmap中为state transition预留空间,使“interesting”判定同时考虑state与code。(5) 五年后大规模评估与配置指导:在ProFuzzBench上做24h×10次的大样本实验,分离评估state反馈、state+code协同、以及seed-selection策略,并用Â12报告效应量。 + +主要创新之处:以“状态反馈+在线状态机学习”把灰盒fuzzing从无状态程序扩展到协议实现的状态空间探索,并给出可复现的消融式实证结论与最佳实践建议。 \ No newline at end of file diff --git a/papers/md/Autoregressive Denoising Diffusion.md b/papers/md/Autoregressive Denoising Diffusion.md new file mode 100644 index 0000000..6812889 --- /dev/null +++ b/papers/md/Autoregressive Denoising Diffusion.md @@ -0,0 +1,44 @@ +# Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forecasting + + + +**第一个问题**:请对论文的内容进行摘要总结,包含研究背景与问题、研究目的、方法、主要结果和结论,字数要求在150-300字之间,使用论文中的术语和概念。 + +论文面向高维多变量概率时间序列预测,指出现有方法常依赖可处理的分布族(如多元高斯/低秩近似)、copula或normalizing flows,对真实分布的多模态/非连通结构表达受限,且高维协方差建模代价高。研究目的在于构建一个能在每个时间步学习灵活条件分布、并保持自回归预测优势的模型。方法上提出TimeGrad:用RNN(LSTM/GRU)编码历史与covariates得到隐藏状态h_{t−1},并在每个时间步以条件denoising diffusion probabilistic model/score matching形式学习p_θ(x_t^0|h_{t−1}),训练通过变分下界等价的噪声预测损失||ε−ε_θ(·,h_{t−1},n)||^2,推断用annealed Langevin dynamics式的反向马尔可夫链从白噪声采样。实验在六个真实数据集(最高达2000维)上以CRPS与CRPS_sum评测,TimeGrad在除最小数据集外均达到新的SOTA,结论是“自回归+扩散/EBM”的组合可有效学习高维相关预测分布。 + +**第二个问题**:请提取论文的摘要原文,摘要一般在Abstract之后,Introduction之前。 + +In this work, we propose TimeGrad, an autoregressive model for multivariate probabilistic time series forecasting which samples from the data distribution at each time step by estimating its gradient. To this end, we use diffusion probabilistic models, a class of latent variable models closely connected to score matching and energy-based methods. Our model learns gradients by optimizing a variational bound on the data likelihood and at inference time converts white noise into a sample of the distribution of interest through a Markov chain using Langevin sampling. We demonstrate experimentally that the proposed autoregressive denoising diffusion model is the new state-of-the-art multivariate probabilistic forecasting method on real-world data sets with thousands of correlated dimensions. We hope that this method is a useful tool for practitioners and lays the foundation for future research in this area. + +**第三个问题**:请列出论文的全部作者,按照此格式:`作者1, 作者2, 作者3`。 + +Kashif Rasul, Calvin Seward, Ingmar Schuster, Roland Vollgraf + +**第四个问题**:请直接告诉我这篇论文发表在哪个会议或期刊,请不要推理或提供额外信息。 + +文段未给出会议或期刊信息。 + +**第五个问题**:请详细描述这篇论文主要解决的核心问题,并用简洁的语言概述。 + +论文要解决的核心问题是:在多变量(维度D可达上千/上万)时间序列预测中,如何为每个未来时间步学习“高维、相关、可能多模态且非高斯”的条件预测分布q_X(x_t^0|x_{1:t-1}^0,c_{1:T}),同时避免传统多元高斯协方差带来的O(D^2)参数和O(D^3)计算、以及normalizing flows/VAEs在非连通模式上可能出现的“连接模式间的虚假密度/映射困难”。TimeGrad通过在自回归框架下把每个时间步的发射分布替换为可用Langevin采样的扩散/score-based EBM,从而以更少的结构限制拟合复杂分布。简洁概述:用“RNN条件 + 扩散去噪得分模型”替代传统输出分布,做高维相关概率预测。 + +**第六个问题**:请告诉我这篇论文提出了哪些方法,请用最简洁的方式概括每个方法的核心思路。 + +(1) TimeGrad总体框架:把多变量预测分解为自回归因子Π_{t=t0}^T p_θ(x_t^0|h_{t−1}),其中h_{t−1}由RNN对历史与协变量编码。(2) 条件扩散发射头(conditional denoising diffusion model):对每个时间步t,把目标向量x_t^0视为训练样本,使用固定前向扩散q(x_n|x_{n−1})加噪,学习反向p_θ(x_{n−1}|x_n,h_{t−1})去噪。(3) 噪声ε预测的训练目标:用Ho et al. (2020)的ε-parameterization,优化E[||ε−ε_θ(√\barα_n x_t^0+√(1−\barα_n)ε, h_{t−1}, n)||^2](选择Σ_θ=~β_n)以学习score/梯度。(4) 推断与采样:给定h_{t−1},从x_t^N~N(0,I)出发,按n=N…1进行反向更新(含噪声项z),得到x_t^0;再把采样到的x_t^0回喂RNN滚动生成多步轨迹。(5) 维度缩放(Scaling):按context window的均值对各维归一化(均值为0则用1),预测后再缩放回原尺度以处理不同维度量纲差异。(6) 协变量建模(Covariates):对类别特征用embedding,组合时间相关(hour/day等)、时间不变特征与lag features,作为RNN输入的一部分。 + +**第七个问题**:请告诉我这篇论文所使用的数据集,包括数据集的名称和来源。 + +使用六个公开数据集,并声明“preprocessed exactly as in (Salinas et al., 2019a)”:Exchange(Lai et al., 2018);Solar(Lai et al., 2018);Electricity(UCI ElectricityLoadDiagrams20112014:https://archive.ics.uci.edu/ml/datasets/ElectricityLoadDiagrams20112014);Traffic(UCI PEMS-SF:https://archive.ics.uci.edu/ml/datasets/PEMS-SF);Taxi(NYC TLC Trip Record Data:https://www1.nyc.gov/site/tlc/about/tlc-trip-record-data.page);Wikipedia(GluonTS仓库提供:链接指向https://github.com/mbohlkeschneider/gluon-ts/tree/mv_release/datasets)。 + +**第八个问题**:请列举这篇论文评估方法的所有指标,并简要说明这些指标的作用。 + +(1) CRPS(Continuous Ranked Probability Score):对每个维度的预测CDF F与观测x的兼容性评分,CRPS越小代表预测分布越接近真实分布,是proper scoring rule。(2) CRPS_sum:先对D维求和得到标量序列,再对其预测分布\hat F_sum计算CRPS并在预测区间上平均,用于衡量模型对“总量/聚合量”不确定性的刻画能力,并且同样是proper scoring function。论文强调选择CRPS类指标是因为部分对比方法不提供解析likelihood或likelihood不可比。 + +**第九个问题**:请总结这篇论文实验的表现,包含具体的数值表现和实验结论。 + +论文在六个数据集上用CRPS_sum对比多类基线(VAR/VAR-Lasso/GARCH/VES、KVAE、Vec-LSTM系列、GP-Copula/GP-scaling、Transformer-MAF),TimeGrad在除最小数据集外均为最优:Exchange上TimeGrad 0.006±0.001(最优为VES 0.005±0.000,TimeGrad略逊);Solar上0.287±0.02(优于Transformer-MAF 0.301±0.014等);Electricity上0.0206±0.001(与Transformer-MAF 0.0207±0.000接近且更好);Traffic上0.044±0.006(优于Transformer-MAF 0.056±0.001);Taxi上0.114±0.02(优于Transformer-MAF 0.179±0.002等);Wikipedia上0.0485±0.002(优于Transformer-MAF 0.063±0.003)。消融显示扩散步数N可降到约10而性能无明显损失,最优大约在N≈100,继续增大无收益。结论:TimeGrad作为“自回归扩散去噪模型”在高维相关概率预测上达到SOTA,并具备对多尺度/多模态分布更友好的建模特性。 + +**第十个问题**:请清晰地描述论文所作的工作,分别列举出动机和贡献点以及主要创新之处。 + +动机:(1) 多变量概率预测需要刻画不确定性与跨维相关性,但多元高斯/低秩/二阶相关限制明显且计算昂贵;(2) normalizing flows/VAEs在高维、非连通模式分布上可能产生虚假密度或映射困难;(3) EBMs/score-based方法表达力强但训练与时间序列条件化结合不足。 +贡献点与创新:(1) 提出TimeGrad:将每个时间步的条件发射分布建模为RNN条件化的denoising diffusion probabilistic model,通过ε-预测学习梯度/score,并用Langevin式反向链采样,从而在自回归预测中实现高维灵活分布建模;(2) 给出训练与推断算法(逐时间步训练目标、滚动采样轨迹),并加入适配真实多维量纲差异的scale normalization与covariate embedding;(3) 在六个真实基准(最高2000维)上用CRPS与CRPS_sum系统对比,取得除最小数据集外的SOTA;(4) 分析扩散长度N的影响,指出N≈10已可用、N≈100最优,为实践中的采样-质量权衡提供依据。 \ No newline at end of file diff --git a/papers/md/CSDI Conditional Score-based Diffusion Model.md b/papers/md/CSDI Conditional Score-based Diffusion Model.md new file mode 100644 index 0000000..f9de14c --- /dev/null +++ b/papers/md/CSDI Conditional Score-based Diffusion Model.md @@ -0,0 +1,44 @@ +# CSDI: Conditional Score-based Diffusion Models for Probabilistic Time Series Imputation + + + +**第一个问题**:请对论文的内容进行摘要总结,包含研究背景与问题、研究目的、方法、主要结果和结论,字数要求在150-300字之间,使用论文中的术语和概念。 + +论文研究多变量时间序列缺失值插补(probabilistic time series imputation),指出传统以autoregressive为主的插补方法虽常用,但score-based diffusion models在图像/音频生成上已显著优于同类方法,且现有“用无条件扩散模型近似后验score”的插补做法会对观测值加噪、并非精确条件分布。研究目的为直接学习q(x0^ta|x0^co)的条件分布并提升插补质量。方法提出CSDI:基于DDPM参数化,将反向过程扩展为pθ(x^ta_{t-1}|x^ta_t,x0^co),令去噪网络εθ显式条件化于观测(含conditional mask),并用masked language modeling式自监督训练把观测拆为conditional observations与imputation targets(含random/historical/mix/testpattern策略);实现上采用2D attention(时间Transformer+特征Transformer)捕获时序与跨特征依赖,并加入时间/特征嵌入。结果:在PhysioNet 2012与北京空气质量数据上,CSDI将CRPS相对现有概率插补方法提升40–65%,确定性插补MAE降低5–20%,并在插值与概率预测上具竞争力。结论是“为插补显式训练的条件扩散模型”显著优于后验近似式扩散插补与RNN基线。 + +**第二个问题**:请提取论文的摘要原文,摘要一般在Abstract之后,Introduction之前。 + +The imputation of missing values in time series has many applications in healthcare and finance. While autoregressive models are natural candidates for time series imputation, score-based diffusion models have recently outperformed existing counterparts including autoregressive models in many tasks such as image generation and audio synthesis, and would be promising for time series imputation. In this paper, we propose Conditional Score-based Diffusion models for Imputation (CSDI), a novel time series imputation method that utilizes score-based diffusion models conditioned on observed data. Unlike existing score-based approaches, the conditional diffusion model is explicitly trained for imputation and can exploit correlations between observed values. On healthcare and environmental data, CSDI improves by 40-65% over existing probabilistic imputation methods on popular performance metrics. In addition, deterministic imputation by CSDI reduces the error by 5-20% compared to the state-of-the-art deterministic imputation methods. Furthermore, CSDI can also be applied to time series interpolation and probabilistic forecasting, and is competitive with existing baselines. The code is available at https://github.com/ermongroup/CSDI. + +**第三个问题**:请列出论文的全部作者,按照此格式:`作者1, 作者2, 作者3`。 + +Yusuke Tashiro, Jiaming Song, Yang Song, Stefano Ermon + +**第四个问题**:请直接告诉我这篇论文发表在哪个会议或期刊,请不要推理或提供额外信息。 + +35th Conference on Neural Information Processing Systems (NeurIPS 2021) + +**第五个问题**:请详细描述这篇论文主要解决的核心问题,并用简洁的语言概述。 + +论文核心要解决:在多变量时间序列X∈R^{K×L}存在缺失(mask M)时,如何学习缺失部分的条件分布q(x0^ta|x0^co)并进行概率插补(输出分布/采样),同时充分利用观测值在时间维与特征维的相关性。现有score-based/扩散插补通常用“无条件扩散模型”近似条件反向过程:在反向采样中对观测x0^co也加噪并拼接进入x_t,导致观测信息被噪声破坏且不对应精确的条件分布,从而限制插补质量。CSDI通过“显式条件反向过程 + 为插补专门训练的εθ(x^ta_t,t|x0^co)”来避免该近似,并用自监督策略在训练时构造(conditional, target)对。简洁概述:用显式条件扩散模型直接建模“给定观测的缺失分布”,替代对观测加噪的后验近似式扩散插补。 + +**第六个问题**:请告诉我这篇论文提出了哪些方法,请用最简洁的方式概括每个方法的核心思路。 + +(1) CSDI条件扩散插补框架:把DDPM反向链改为pθ(x^ta_{t-1}|x^ta_t,x0^co),在每步去噪时显式输入观测条件以恢复缺失值分布。(2) 条件DDPM参数化:沿用DDPM的μ_DDPM/σ_DDPM形式,仅将εθ扩展为条件网络εθ(x^ta_t,t|x0^co)(并在实现里加m_co)。(3) 自监督训练(masked language modeling式):把“观测值”划分为x0^co与x0^ta(目标),对x0^ta加噪得到x^ta_t,优化||ε−εθ(x^ta_t,t|x0^co)||^2,无需真实缺失的ground truth。(4) 目标选择策略(target choice):Random(随机比例选观测为目标)、Historical(用训练集中其他样本缺失模式决定目标)、Mix(随机+历史混合)、Testpattern(已知测试缺失模式时直接用)。(5) 时间序列实现的输入对齐:将x^ta_t与x0^co零填充到固定K×L形状,配合conditional mask m_co指示条件位置与输出mask。(6) 2D attention去噪网络:在残差层中同时做temporal Transformer(沿L捕获时间依赖)与feature Transformer(沿K捕获特征依赖)。(7) Side information:时间戳s的128维time embedding + 特征ID的embedding,用于增强条件建模。 + +**第七个问题**:请告诉我这篇论文所使用的数据集,包括数据集的名称和来源。 + +插补/插值数据集:(1) PhysioNet Challenge 2012 healthcare数据集:4000个ICU临床时间序列,35变量,48小时(文中引用Silva et al., 2012)。(2) Air quality(Beijing PM2.5)数据集:北京36个站点PM2.5小时数据(文中引用Yi et al., 2016),并说明数据覆盖2014/05/01–2015/04/30且含结构化缺失/人工ground truth。预测(forecasting)数据集(来自GluonTS并按Salinas et al. 2019预处理):solar(137站点光伏发电记录)、electricity(UCI ElectricityLoadDiagrams20112014)、traffic(UCI PEMS-SF)、taxi(NYC TLC trip records聚合的1214位置半小时序列)、wiki(2000维Wikipedia page views)。 + +**第八个问题**:请列举这篇论文评估方法的所有指标,并简要说明这些指标的作用。 + +(1) CRPS(continuous ranked probability score):评估概率插补/插值的预测分布与观测值的匹配程度(越小越好),用100个样本近似分布并按分位数损失积分近似计算;论文用于概率插补与预测(也报告逐任务CRPS)。(2) 归一化平均CRPS:对所有目标(k,l)的CRPS求和后除以∑|x_{k,l}|,用于跨特征尺度的可比性(论文Eq.18)。(3) MAE(mean absolute error):确定性插补误差(越小越好),CSDI取100样本中位数作为确定性插补。(4) RMSE:确定性插补/插值误差补充指标(越小越好),在附录表9/10报告。(5) CRPS-sum:概率预测任务中“对K维求和后的分布”的CRPS(越小越好),衡量联合效应/聚合量不确定性(论文Eq.19)。(6) MSE:概率预测任务的点误差补充指标(越小越好,表12)。(7) NLL(negative log likelihood):论文做了对比分析(表8)说明其对噪声schedule敏感且与样本质量/CRPS不一定相关,因此不作为主指标。 + +**第九个问题**:请总结这篇论文实验的表现,包含具体的数值表现和实验结论。 + +概率插补(CRPS,越低越好,表2):在healthcare数据上,CSDI分别为10%/50%/90% missing:0.238(0.001)/0.330(0.002)/0.522(0.002),优于Multitask GP(0.489/0.581/0.942)、GP-VAE(0.574/0.774/0.998)、V-RIN(0.808/0.831/0.922);并优于“unconditional diffusion”插补(0.360/0.458/0.671)。在air quality上CSDI为0.108(0.001),优于Multitask GP 0.301、GP-VAE 0.397、V-RIN 0.526、unconditional 0.135。确定性插补(MAE,表3):healthcare为0.217/0.301/0.481(10/50/90% missing),优于BRITS 0.284/0.368/0.517、GLIMA(引用)10.54在air quality上,CSDI在air quality为9.60(0.04)(优于BRITS引用11.56、unconditional 12.13等),总体称提升5–20%。插值(不规则采样,CRPS,表4):CSDI 0.380/0.418/0.556(10/50/90% missing)优于Latent ODE与mTANs。预测(CRPS-sum,表5):CSDI在electricity与traffic上最好(0.017与0.020),在solar/taxi/wiki上与SOTA基线接近或略优(例如wiki 0.047 vs TimeGrad 0.049)。结论:显式条件扩散模型+自监督训练显著提升概率/确定性插补,并可迁移到插值与预测。 + +**第十个问题**:请清晰地描述论文所作的工作,分别列举出动机和贡献点以及主要创新之处。 + +动机:(1) 时间序列缺失普遍存在且影响医疗/金融等应用;(2) 既有深度插补多为autoregressive,难以达到扩散模型在生成任务中的表现;(3) 现有扩散插补多用“无条件扩散近似条件后验score”,需要对观测加噪,信息受损且不对应精确条件分布。 +贡献点与创新:(1) 提出CSDI:为插补任务显式建模pθ(x0^ta|x0^co)的conditional score-based diffusion model,并在反向去噪中直接条件化于观测值以利用相关性。(2) 自监督训练机制:借鉴masked language modeling,把观测拆成条件与目标,设计random/historical/mix/testpattern等target choice策略,使得即使训练集缺少真实缺失ground truth也能训练。(3) 面向多变量时序的结构设计:提出2D attention(时间Transformer+特征Transformer)与side information(time embedding、feature embedding),强化跨时间/跨特征依赖建模。(4) 系统实证:在healthcare与air quality上CRPS提升40–65%,确定性MAE降低5–20%,并展示对插值与预测的可扩展性与竞争力,同时通过消融证明2D attention等组件关键。 \ No newline at end of file diff --git a/papers/md/Denoising Diffusion Probabilistic Models.md b/papers/md/Denoising Diffusion Probabilistic Models.md new file mode 100644 index 0000000..a1c132a --- /dev/null +++ b/papers/md/Denoising Diffusion Probabilistic Models.md @@ -0,0 +1,44 @@ +# **Denoising Diffusion Probabilistic Models** + + + +**第一个问题**:请对论文的内容进行摘要总结,包含研究背景与问题、研究目的、方法、主要结果和结论,字数要求在150-300字之间,使用论文中的术语和概念。 + +论文研究扩散概率模型(diffusion probabilistic models, diffusion models)在高质量图像生成上的可行性。背景问题是:此前扩散模型虽易定义与训练,但缺少生成高质量样本的证明。研究目的在于改进扩散模型的训练与参数化,并展示其样本质量。方法上,构建固定前向扩散过程q(x_t|x_{t-1})逐步加高斯噪声,并学习反向过程p_θ(x_{t-1}|x_t)的高斯转移;提出与denoising score matching和Langevin dynamics的显式联系,采用预测噪声ε的参数化,并使用简化的加权变分目标L_simple训练;模型用U-Net+自注意力与时间嵌入。结果:在无条件CIFAR10上达到Inception Score 9.46、FID 3.17;在256×256 LSUN上样本质量接近ProgressiveGAN。结论指出扩散模型能产生高质量样本,且其采样可解释为progressive decoding/渐进式有损解码的泛化。 + +**第二个问题**:请提取论文的摘要原文,摘要一般在Abstract之后,Introduction之前。 + +We present high quality image synthesis results using diffusion probabilistic models, a class of latent variable models inspired by considerations from nonequilibrium thermodynamics. Our best results are obtained by training on a weighted variational bound designed according to a novel connection between diffusion probabilistic models and denoising score matching with Langevin dynamics, and our models naturally admit a progressive lossy decompression scheme that can be interpreted as a generalization of autoregressive decoding. On the unconditional CIFAR10 dataset, we obtain an Inception score of 9.46 and a state-of-the-art FID score of 3.17. On 256x256 LSUN, we obtain sample quality similar to ProgressiveGAN. Our implementation is available at https://github.com/hojonathanho/diffusion. + +**第三个问题**:请列出论文的全部作者,按照此格式:`作者1, 作者2, 作者3`。 + +Jonathan Ho, Ajay Jain, Pieter Abbeel + +**第四个问题**:请直接告诉我这篇论文发表在哪个会议或期刊,请不要推理或提供额外信息。 + +34th Conference on Neural Information Processing Systems (NeurIPS 2020) + +**第五个问题**:请详细描述这篇论文主要解决的核心问题,并用简洁的语言概述。 + +核心问题是:扩散概率模型作为“通过变分推断训练的马尔可夫链”能否在图像上达到与GAN/自回归模型相当的高样本质量,以及如何设计反向过程参数化与训练目标来实现这一点。具体难点包括:反向过程p_θ(x_{t-1}|x_t)如何学习“去噪逆扩散”,训练时如何用可计算的变分下界分解(L_T、L_{1:T-1}、L_0)稳定优化,采样链如何与score-based/annealed Langevin dynamics统一理解,并解释其为何样本质量高但log likelihood(bits/dim)不占优。简洁概述:把扩散模型从“理论上合理、效果未证实”变成“能稳定训练并生成SOTA质量图像”的生成框架,并给出与score matching/Langevin及渐进式解码的统一解释。 + +**第六个问题**:请告诉我这篇论文提出了哪些方法,请用最简洁的方式概括每个方法的核心思路。 + +(1) 扩散模型的前向/反向马尔可夫链建模:固定q(x_t|x_{t-1})逐步加高斯噪声(β_t schedule),学习高斯反向转移p_θ(x_{t-1}|x_t)。(2) 反向均值的ε-预测参数化:用网络ε_θ(x_t,t)预测噪声ε,并由此构造μ_θ(x_t,t)=1/√α_t·(x_t−β_t/√(1−\barα_t)·ε_θ(x_t,t)),使采样形态类似Langevin dynamics。(3) 与denoising score matching的等价联系:推导L_{t-1}在ε-参数化下变为多噪声等级的去噪平方误差(与score matching形式一致)。(4) 简化训练目标L_simple:用未加权的E[||ε−ε_θ(√\barα_t x_0+√(1−\barα_t)ε,t)||^2]训练(t均匀采样),作为“加权变分下界”以提升样本质量并简化实现。(5) 固定方差Σ_θ(x_t,t)=σ_t^2 I:不学习反向方差,实验发现更稳定且FID更好。(6) Progressive lossy decompression / progressive decoding解释:把采样过程解释为逐步恢复信息的渐进式解码,并与自回归解码作类比。 + +**第七个问题**:请告诉我这篇论文所使用的数据集,包括数据集的名称和来源。 + +(1) CIFAR10:无条件生成评测(论文实验主基准;通过TensorFlow Datasets加载)。(2) LSUN 256×256:Bedroom、Church、Cat类别(数据准备使用StyleGAN代码;FID计算亦使用StyleGAN2代码)。(3) CelebA-HQ 256×256:用于展示高分辨率人脸样本与插值(通过TensorFlow Datasets加载)。 + +**第八个问题**:请列举这篇论文评估方法的所有指标,并简要说明这些指标的作用。 + +(1) Inception Score (IS):衡量生成样本的可辨识性与多样性,越高越好(主要用于CIFAR10)。(2) Fréchet Inception Distance (FID):衡量生成分布与真实分布在Inception特征空间的距离,越低越好(CIFAR10/LSUN等)。(3) Negative Log Likelihood (NLL) / bits per dimension:以离散数据的lossless codelength度量似然质量,越低越好(用于对比likelihood-based模型)。(4) Rate–Distortion分析:将L_{1:T}视为rate、L_0视为distortion,画rate(bits/dim)与distortion(RMSE)随时间/码率变化,用于解释“高感知质量但似然一般”的原因。(5) Distortion:用RMSE(在[0,255]像素尺度)度量重建误差/失真。 (6) Progressive sampling quality over time:在反向步数(T−t)过程中跟踪IS与FID,观察由粗到细生成。 (7) Train–test NLL gap:训练/测试bits/dim差异用于检查是否过拟合(论文报告gap≤0.03 bits/dim)。 + +**第九个问题**:请总结这篇论文实验的表现,包含具体的数值表现和实验结论。 + +在无条件CIFAR10上,论文最佳模型(L_simple)达到IS=9.46±0.11、FID=3.17,并给出NLL Test≤3.75 bits/dim(Train 3.72)。与参数化/目标消融相比,ε-预测在L_simple下显著优于μ̃-预测:μ̃预测在真变分界L+固定各向同性Σ时FID=13.22,而ε-预测+L_simple将FID降至3.17。高分辨率上,LSUN 256×256生成质量与ProgressiveGAN相当:Bedroom FID可达4.90(large模型),Church FID=7.89,Cat FID=19.75。论文同时指出:尽管样本质量强,扩散模型的log likelihood不如其他likelihood-based模型;通过rate-distortion显示大量bits用于“人眼不可感知细节”,支持其“优秀有损压缩/渐进式解码”解释。 + +**第十个问题**:请清晰地描述论文所作的工作,分别列举出动机和贡献点以及主要创新之处。 + +动机:扩散模型训练高效、定义简单,但此前缺少能生成高质量样本的实证;同时score matching/能量模型/Langevin采样等方向虽能生成图像,但缺少统一、可计算似然与“直接训练采样器”的框架。 +贡献点:(1) 证明扩散模型可达高样本质量:在CIFAR10取得SOTA级FID=3.17,并在LSUN 256×256上达到接近ProgressiveGAN的质量。(2) 提出关键理论联系:建立扩散模型与多噪声级别的denoising score matching、以及与annealed Langevin dynamics采样的显式等价关系,并将其视为主要贡献之一。(3) ε-预测反向过程参数化:用预测噪声ε_θ替代直接预测μ̃_t,使训练目标化简并使采样形式更接近Langevin动态。(4) 简化的加权变分目标L_simple:作为对标准变分下界的重加权,降低小t去噪项权重,显著提升样本质量且实现更简洁。(5) 渐进式有损解码解释与自回归泛化:把反向扩散看作progressive decoding,并给出与自回归“比特顺序/掩码顺序”的广义对应,同时用rate-distortion与逐步生成可视化支撑这一解释。 \ No newline at end of file diff --git a/papers/md/DiffSTG Probabilistic Spatio-Temporal Graph.md b/papers/md/DiffSTG Probabilistic Spatio-Temporal Graph.md new file mode 100644 index 0000000..c5e4958 --- /dev/null +++ b/papers/md/DiffSTG Probabilistic Spatio-Temporal Graph.md @@ -0,0 +1,45 @@ +# DiffSTG: Probabilistic Spatio-Temporal Graph Forecasting with Denoising Diffusion Models + + + +**第一个问题**:请对论文的内容进行摘要总结,包含研究背景与问题、研究目的、方法、主要结果和结论,字数要求在150-300字之间,使用论文中的术语和概念。 + +论文针对spatio-temporal graph(STG) forecasting中STGNN难以刻画intrinsic uncertainties的问题,研究probabilistic STG forecasting在不确定性建模与复杂ST dependencies上的挑战。目标是将denoising diffusion probabilistic models(DDPM)推广到STGs,提出非自回归框架DiffSTG,并设计首个面向STG的去噪网络UGnet。方法上构建conditional diffusion:以历史图信号与图结构为条件,在masked formulation中把[x^h,x^p]统一为x_all并用x_all^msk条件化反向过程;训练采用噪声预测损失||ε−ε_θ(x_all^n,n|x_all^msk,G)||^2;UGnet以Unet式时间尺度聚合+TCN建模时间依赖+GCN建模空间相关;并用子步采样与末k步复用加速采样。结果在PEMS08、AIR-BJ、AIR-GZ上CRPS降低4%–14%、RMSE降低2%–7%,且推理较TimeGrad显著加速。结论表明DiffSTG兼顾ST建模能力与不确定性量化,适用于决策场景。 + +**第二个问题**:请提取论文的摘要原文,摘要一般在Abstract之后,Introduction之前。 + +Spatio-temporal graph neural networks (STGNN) have emerged as the dominant model for spatio-temporal graph (STG) forecast-ing. Despite their success, they fail to model intrinsic uncertainties within STG data, which cripples their practicality in downstream tasks for decision-making. To this end, this paper focuses on probabilistic STG forecasting, which is challenging due to the difficulty in modeling uncertainties and complex ST dependencies. In this study, we present the first attempt to generalize the popular de-noising diffusion probabilistic models to STGs, leading to a novel non-autoregressive framework called DiffSTG, along with the first denoising network UGnet for STG in the framework. Our approach combines the spatio-temporal learning capabilities of STGNNs with the uncertainty measurements of diffusion models. Extensive ex-periments validate that DiffSTG reduces the Continuous Ranked Probability Score (CRPS) by 4%-14%, and Root Mean Squared Er-ror (RMSE) by 2%-7% over existing methods on three real-world datasets. The code is in https://github.com/wenhaomin/DiffSTG. + +**第三个问题**:请列出论文的全部作者,按照此格式:`作者1, 作者2, 作者3`。 + +Haomin Wen, Youfang Lin, Yutong Xia, Huaiyu Wan, Qingsong Wen, Roger Zimmermann, Yuxuan Liang + +**第四个问题**:请直接告诉我这篇论文发表在哪个会议或期刊,请不要推理或提供额外信息。 + +未在提供的论文内容中给出具体会议或期刊名称。 + +**第五个问题**:请详细描述这篇论文主要解决的核心问题,并用简洁的语言概述。 + +核心问题是:在STG forecasting中同时做到(1)捕获跨节点的spatial correlations与跨时间的temporal dependencies(复杂ST dependencies),以及(2)对未来多步预测给出可用的概率分布与uncertainty quantification(而非仅点预测),并且(3)避免现有扩散式时间序列方法(如TimeGrad)在多步预测时的自回归/逐步生成带来的推理低效。论文指出:时间序列扩散模型往往只在单变量或单节点上建模时间依赖,缺乏显式图结构条件;同时TimeGrad需要对每个未来步重复运行扩散链,导致S×T_p×N级别的高开销。DiffSTG通过“图条件+非自回归多步一次生成+ST专用去噪网络”来解决。简洁概述:把扩散概率模型做成“能利用图结构、一次生成多步、还能输出不确定性”的STG概率预测器。 + +**第六个问题**:请告诉我这篇论文提出了哪些方法,请用最简洁的方式概括每个方法的核心思路。 + +(1) DiffSTG非自回归概率预测框架:用一次反向扩散过程直接生成多预测步x^p(而不是逐步/逐未来步运行)。(2) Conditional Diffusion for STG:在反向过程p_θ(x_{n-1}|x_n, x^h, G)中显式条件化历史与图结构以学习p(x^p|x^h,G)。(3) Generalized Masked Conditional Diffusion:将[x^h,x^p]拼成x_all,并用mask得到x_all^msk作为条件,统一“重建历史+预测未来”的训练目标。(4) UGnet去噪网络:时间维Unet结构捕获multi-scale temporal dependencies,块内用TCN建模时间依赖、用GCN建模空间相关,并注入noise level embedding。 (5) Sampling Acceleration:只采样子序列{τ_1…τ_M}减少步数M,并在末k步把近似样本复用以减少需要的反向扩散链次数(S→S/k)。 + +**第七个问题**:请告诉我这篇论文所使用的数据集,包括数据集的名称和来源。 + +(1) PEMS08:交通流量数据集,来自Caltrans Performance Measurement System (PeMS);论文使用STSGCN提取/整理的版本,并依据实际路网构建邻接关系。 (2) AIR-BJ:北京34个监测站PM2.5小时数据(2019/01/01–2019/12/31),来源引用Yi et al.相关工作[46];用站点距离构建空间相关矩阵A。 (3) AIR-GZ:广州41个监测站PM2.5小时数据(2017/01/01–2017/12/31),同样来源[46]并用距离建图。 + +**第八个问题**:请列举这篇论文评估方法的所有指标,并简要说明这些指标的作用。 + +(1) CRPS(Continuous Ranked Probability Score):评估预测分布F与观测x的兼容性,衡量概率预测质量,越小越好(论文的主要指标)。(2) MAE:衡量点预测误差的平均绝对偏差;论文对概率模型用多次采样的均值(或聚合)给出确定性结果后计算,越小越好。(3) RMSE:衡量点预测误差的均方根,对大误差更敏感,越小越好。(4) Inference Time / Time cost:比较扩散式方法的推理耗时与加速效果(表3给出不同样本数S下秒级耗时)。 + +**第九个问题**:请总结这篇论文实验的表现,包含具体的数值表现和实验结论。 + +在三数据集上的概率方法对比(表2,越小越好):AIR-BJ上DiffSTG=MAE 17.88、RMSE 29.60、CRPS 0.34(优于TimeGrad 0.36、DeepAR 0.37等);AIR-GZ上DiffSTG=MAE 10.95、RMSE 16.66、CRPS 0.22(优于DeepAR 0.23、TimeGrad/MC Dropout 0.25);PEMS08上DiffSTG=MAE 17.68、RMSE 27.13、CRPS 0.06(优于DeepAR/MC Dropout 0.07、TimeGrad 0.09)。相对“各数据集最强基线”,CRPS下降5.6%/4.3%/14.3%,RMSE下降约7.1%/2.4%/7.6%(表2的Error reduction行)。推理效率(表3,AIR-GZ,N=100):S=8时TimeGrad 9.58s,DiffSTG(M=100,k=1) 0.24s(约40×加速);进一步加速DiffSTG(M=40,k=2)为0.07s,且随S增大仍显著快于TimeGrad与CSDI。结论:DiffSTG在概率质量(CRPS)与确定性误差(MAE/RMSE)上均领先,并通过非自回归与采样子步显著提升推理速度。 + +**第十个问题**:请清晰地描述论文所作的工作,分别列举出动机和贡献点以及主要创新之处。 + +动机:(1) 现有STGNN多为deterministic,难以提供uncertainty用于决策;(2) 扩散式概率时间序列模型(TimeGrad/CSDI等)缺少图空间依赖建模,且自回归式多步生成效率低。 +贡献点:(1) 首次将DDPM系统推广到STG概率预测,提出非自回归DiffSTG以建模p(x^p|x^h,G)并量化不确定性。(2) 提出首个面向STG的扩散去噪网络UGnet:时间维Unet捕获多尺度时间模式,结合TCN+GCN显式学习ST dependencies。(3) 提出masked generalized conditional diffusion(x_all与x_all^msk同空间)以统一“重建历史+预测未来”,提升条件利用与任务泛化(预测/生成/插值)。(4) 提出采样加速策略(子步采样+末k步复用)并实证带来显著推理加速且性能保持。 +主要创新之处:ST专用去噪结构UGnet、非自回归多步扩散预测、以及面向STG任务的masked条件化扩散建模方式。 \ No newline at end of file diff --git a/papers/md/DiffWave A Versatile Diffusion Model for Audio Synthesis.md b/papers/md/DiffWave A Versatile Diffusion Model for Audio Synthesis.md new file mode 100644 index 0000000..1d3c379 --- /dev/null +++ b/papers/md/DiffWave A Versatile Diffusion Model for Audio Synthesis.md @@ -0,0 +1,47 @@ +# DiffWave A Versatile Diffusion Model for Audio Synthesis + + + +**第一个问题**:请对论文的内容进行摘要总结,包含研究背景与问题、研究目的、方法、主要结果和结论,字数要求在150-300字之间,使用论文中的术语和概念。 + +论文面向raw waveform生成,指出既有likelihood-based模型(WaveNet自回归、flow)虽能保真,但推理慢或受结构约束;GAN/VAE等又常需auxiliary losses且存在mode collapse/posterior collapse,尤其在unconditional generation中长序列建模困难。研究目的在于提出一种同时适用于conditional与unconditional的高保真、非自回归生成框架。方法提出DiffWave:基于DDPM参数化,用εθ预测噪声并以unweighted ELBO变体训练;推理从白噪声通过Markov链反向去噪生成波形,并提出fast sampling将训练时T步“折叠”为少量T_infer步。网络采用受WaveNet启发的bidirectional dilated convolution残差堆叠,支持mel spectrogram本地条件与label全局条件。结果:在LJ Speech神经声码器上MOS 4.44≈WaveNet 4.43且合成速度快多个数量级;小模型2.64M参数在V100上>5×实时(Fast);在SC09无条件/类条件生成上相对WaveNet与WaveGAN在MOS、FID/IS/mIS/AM/NDB等质量与多样性指标显著更优。结论是扩散模型可用单一ELBO目标稳定训练,并在音频生成任务上实现高质量与高效推理。 + +**第二个问题**:请提取论文的摘要原文,摘要一般在Abstract之后,Introduction之前。 + +In this work, we propose DiffWave, a versatile diffusion probabilistic model for conditional and unconditional waveform generation. The model is non-autoregressive, and converts the white noise signal into structured waveform through a Markov chain with a constant number of steps at synthesis. It is efficiently trained by optimizing a variant of variational bound on the data likelihood. DiffWave produces high-fidelity audio in different waveform generation tasks, including neural vocoding conditioned on mel spectrogram, class-conditional generation, and unconditional generation. We demonstrate that DiffWave matches a strong WaveNet vocoder in terms of speech quality (MOS: 4.44 versus 4.43), while synthesizing orders of magnitude faster. In particular, it significantly outperforms autoregressive and GAN-based waveform models in the challenging unconditional generation task in terms of audio quality and sample diversity from various automatic and human evaluations. + +**第三个问题**:请列出论文的全部作者,按照此格式:`作者1, 作者2, 作者3`。 + +Zhifeng Kong, Wei Ping, Jiaji Huang, Kexin Zhao, Bryan Catanzaro + +**第四个问题**:请直接告诉我这篇论文发表在哪个会议或期刊,请不要推理或提供额外信息。 + +ICLR 2021 + +**第五个问题**:请详细描述这篇论文主要解决的核心问题,并用简洁的语言概述。 + +论文核心要解决:如何在raw waveform层面实现高保真生成,同时兼顾(1)非自回归并行合成的高效率,(2)对conditional(神经声码器/类条件)与unconditional生成的统一建模能力,(3)稳定训练且无需额外辅助损失。难点在于:无条件生成需要在极长序列(如16kHz下1秒=16000点)上学习复杂分布,WaveNet等自回归在无条件下易产生“made-up word-like sounds/样本差”,GAN/ VAE又易出现训练不稳定或模式问题。简洁概述:用扩散去噪的马尔可夫链把白噪声稳定地变成真实波形,以更快推理和更强无条件生成质量替代传统自回归/GAN方案。 + +**第六个问题**:请告诉我这篇论文提出了哪些方法,请用最简洁的方式概括每个方法的核心思路。 + +(1) DiffWave扩散式波形生成:采用DDPM前向加噪q(x_t|x_{t-1})与反向去噪pθ(x_{t-1}|x_t),从N(0,I)逐步生成x_0。(2) ε-parameterization与unweighted ELBO训练:固定σθ为\tildeβ_t^{1/2},网络εθ(x_t,t)预测噪声ε,最小化E||ε−εθ(√\barα_t x_0+√(1−\barα_t)ε,t)||²。(3) Fast sampling(T→T_infer折叠):用用户自定义噪声日程{η_s},通过对齐噪声水平t_align把少量采样步映射到训练步,显著减少合成时顺序步数(如6步)。(4) 去噪网络结构:基于WaveNet思想的feed-forward、bidirectional dilated conv残差堆叠+skip连接,因非自回归可用双向扩张卷积提升感受野利用。(5) 条件生成机制:本地条件(mel spectrogram经转置卷积上采样并Conv1×1映射后作为各残差层bias)与全局条件(label embedding经Conv1×1后作为bias)。(6) 无条件生成的感受野策略:通过反向扩散迭代使有效感受野扩大到T×r,以覆盖长序列依赖。 + +**第七个问题**:请告诉我这篇论文所使用的数据集,包括数据集的名称和来源。 + +(1) LJ Speech Dataset(Ito, 2017):约24小时、22.05kHz、13100条女声语音,用于neural vocoding(mel spectrogram条件)。(2) Speech Commands Dataset(Warden, 2018)中的SC09子集(digits 0–9):16kHz、1秒长度、训练31158条、2032说话人,用于unconditional与class-conditional生成;文中还用其官方提供的噪声类型做zero-shot denoising演示。 + +**第八个问题**:请列举这篇论文评估方法的所有指标,并简要说明这些指标的作用。 + +(1) MOS(Mean Opinion Score,5分制,含95%CI):人类主观语音质量评价,用于声码器、无条件与类条件任务。(2) FID:在ResNeXT特征空间拟合高斯,衡量生成样本与训练集分布距离,兼顾质量与多样性(越低越好)。(3) IS:基于分类器输出,偏好“可被清晰分类且整体多样”的样本(越高越好)。(4) mIS:在IS基础上强调within-class diversity(类内多样性)(越高越好)。(5) AM Score:考虑训练集边缘label分布与生成分布的一致性,并加生成样本预测熵项,缓解IS忽略先验分布的问题(越低越好,论文表2以↓标注)。(6) NDB/K(Number of Statistically-Different Bins):K-means分箱后比较生成与真实在各箱占比差异,衡量多样性与模式覆盖(越低越好)。(7) Accuracy(类条件任务):用ResNeXT对生成样本分类的准确率,衡量语音清晰度/类一致性(越高越好)。(8) FID-class(类条件任务):按每个digit分别算FID再取均值±方差,衡量类内分布匹配(越低越好)。(9) 合成速度(如“× real-time”、或“500× slower”对比):衡量推理效率,特别对比WaveNet与DiffWave/Fast。 + +**第九个问题**:请总结这篇论文实验的表现,包含具体的数值表现和实验结论。 + +神经声码器(LJ Speech,表1):DiffWave LARGE(T=200)MOS 4.44±0.07,略高于WaveNet 4.43±0.10;DiffWave BASE在T=40/50时MOS 4.35±0.10/4.38±0.08,且参数仅2.64M;Fast采样下DiffWave BASE(Fast) MOS 4.37±0.07、DiffWave LARGE(Fast) MOS 4.42±0.09,并报告合成可达5.6×/3.5×实时(V100,无工程优化),而WaveNet无工程优化约500×慢于实时。无条件生成(SC09,表2):DiffWave在MOS 3.39±0.32显著优于WaveNet-256 1.43±0.30与WaveGAN 2.03±0.33;自动指标上DiffWave也最好:FID 1.287(优于WaveGAN 1.349、WaveNet-256 2.947),IS 5.305、mIS 59.4、AM 0.636、NDB/K 0.74。类条件生成(表3):DiffWave MOS 3.50±0.31优于WaveNet-256 1.58±0.36;Accuracy 91.20%(WaveNet-256为60.70%);FID-class 1.113±0.569(WaveNet-256为6.954±2.114),mIS 117.4远高于WaveNet。结论:DiffWave用单一扩散目标实现接近/超过强声码器质量,并在无条件/类条件任务上显著提升质量与多样性,同时推理速度相对自回归大幅加速。 + +**第十个问题**:请清晰地描述论文所作的工作,分别列举出动机和贡献点以及主要创新之处。 + +动机:(1) WaveNet等自回归波形生成质量高但推理极慢;(2) flow模型虽快但架构受可逆性/雅可比约束;(3) GAN/VAE常需辅助损失且存在训练不稳定、mode collapse/posterior collapse;(4) 无条件波形生成长序列难,传统模型质量/多样性不足。 + +贡献点:(1) 提出DiffWave:非自回归扩散概率模型,使用ELBO变体(噪声预测)稳定训练,统一支持neural vocoding、类条件与无条件生成。(2) 设计适配扩散去噪的bidirectional dilated conv残差网络与扩散步嵌入/条件注入方式。(3) 提出fast sampling:将训练T步反向过程折叠为少量T_infer步,显著加速合成且保持质量。(4) 大规模实证:声码器MOS 4.44≈WaveNet且速度提升数量级;在无条件/类条件上相对WaveNet与WaveGAN在MOS与FID/IS/mIS/AM/NDB等全面领先。 + +主要创新之处:将DDPM的ε-parameterization系统化落地到raw audio,并通过“非自回归去噪网络+噪声步对齐的快速采样”实现高质量与高效率的统一。 \ No newline at end of file diff --git a/papers/md/Diffusion-LM Improves Controllable Text Generation.md b/papers/md/Diffusion-LM Improves Controllable Text Generation.md new file mode 100644 index 0000000..4feca1a --- /dev/null +++ b/papers/md/Diffusion-LM Improves Controllable Text Generation.md @@ -0,0 +1,63 @@ +# **Diffusion-LM Improves Controllable Text Generation** + + + +**第一个问题**:请对论文的内容进行摘要总结,包含研究背景与问题、研究目的、方法、主要结果和结论,字数要求在150-300字之间,使用论文中的术语和概念。 + +论文关注“在不重新训练语言模型的前提下实现可控文本生成”这一开放问题:现有plug-and-play方法基于autoregressive LM,较难实现复杂、细粒度控制(如syntax tree/ spans),且难以组合多个控制。研究目的在于构建一种更易被梯度引导的生成模型,以支持结构化与全局约束控制。方法上提出Diffusion-LM:基于continuous diffusion的非自回归LM,从高斯噪声序列迭代去噪到word vectors,产生层级连续潜变量x_T…x_0;为离散文本引入embedding与rounding,并提出端到端训练目标、x_0-parameterization与clamping trick以减少rounding error;控制时在每个扩散步对连续潜变量做多步梯度更新,优化λ·log p(x_{t-1}|x_t)+log p(c|x_{t-1})以平衡fluency与control。实验在E2E与ROCStories上覆盖6类控制任务,Diffusion-LM在多项细粒度控制上显著优于PPLM/FUDGE,并在syntax tree与spans控制上超过fine-tuning oracle;在infilling上优于COLD/DELOREAN且接近专训AR模型。结论是连续扩散的层级潜变量为复杂可控生成提供了更强的可操控性,但代价是解码更慢、困惑度更高。 + +**第二个问题**:请提取论文的摘要原文,摘要一般在Abstract之后,Introduction之前。 + +Controlling the behavior of language models (LMs) without re-training is a major open problem in natural language generation. While recent works have demon-strated successes on controlling simple sentence attributes (e.g., sentiment), there has been little progress on complex, fine-grained controls (e.g., syntactic structure). To address this challenge, we develop a new non-autoregressive language model based on continuous diffusions that we call Diffusion-LM. Building upon the recent successes of diffusion models in continuous domains, Diffusion-LM iteratively denoises a sequence of Gaussian vectors into word vectors, yielding a sequence of intermediate latent variables. The continuous, hierarchical nature of these inter-mediate variables enables a simple gradient-based algorithm to perform complex, controllable generation tasks. We demonstrate successful control of Diffusion-LM for six challenging fine-grained control tasks, significantly outperforming prior work. + +**第三个问题**:请列出论文的全部作者,按照此格式:`作者1, 作者2, 作者3`。 + +Xiang Lisa Li, John Thickstun, Ishaan Gulrajani, Percy Liang, Tatsunori B. Hashimoto + +**第四个问题**:请直接告诉我这篇论文发表在哪个会议或期刊,请不要推理或提供额外信息。 + +Preprint. Under review. + +**第五个问题**:请详细描述这篇论文主要解决的核心问题,并用简洁的语言概述。 + +论文核心要解决的是:如何在“冻结语言模型参数(without re-training)”的plug-and-play设定下,实现对生成文本的复杂、细粒度、全局结构化控制,并且能够组合多个控制信号。作者指出基于autoregressive LM的控制(如PPLM、FUDGE、GeDi/DExperts类思想)存在结构性限制:自回归的左到右生成一旦早期出错难以修复,且很多控制(parse tree、span类别、长度规划、infilling)需要对全句全局属性或右侧上下文进行前瞻规划;前缀判别器/逐token引导在结构约束下会出现“前缀一错、后续全盘崩”的问题。Diffusion-LM通过连续扩散产生一系列从粗到细的潜变量x_T…x_0,使控制信号可以在不同噪声层级上对“整句”施加可微约束,并允许在每个扩散步对潜变量做梯度更新,从而更容易满足复杂控制同时保持流畅性。简洁概述:把可控生成从“逐token操控离散输出”转为“在连续扩散潜空间上做全局梯度引导的去噪采样”,以支持细粒度句法/语义/跨度/长度/填空等控制与组合。 + +**第六个问题**:请告诉我这篇论文提出了哪些方法,请用最简洁的方式概括每个方法的核心思路。 + +1) Diffusion-LM(continuous diffusion language model):将文本序列表示为连续word vectors序列,从高斯噪声x_T迭代去噪生成x_0,再rounding到离散词序列w,实现非自回归生成 +2) End-to-end embedding learning(§4.1):在前向过程中加入q_φ(x_0|w)=N(EMB(w),σ_0I),并在反向加入p_θ(w|x_0)的rounding项,联合学习扩散模型与词向量嵌入(L_e2e_simple / L_e2e_vlb)。 +3) x_0-parameterization objective(§4.2):改用网络直接预测x_0(f_θ(x_t,t)≈x_0),让每个扩散步都显式约束x_0,提高“落到词嵌入点上”的能力、减少rounding error。 +4) Clamping trick(§4.2):在采样时把预测的x_0或中间估计Clamp到最近词嵌入再继续去噪,强制中间步骤更“词化”,进一步降低rounding误差。 +5) Gradient-based classifier-guided control on latents(§5.1):在每个扩散步对x_{t-1}做多步梯度更新,优化λ·log p(x_{t-1}|x_t)+log p(c|x_{t-1}),用可微classifier提供控制梯度、扩散模型提供流畅性正则。 +6) Multiple controls composition(§7.2):对多个控制项直接求和其log-prob梯度,在同一潜空间联合满足多个约束。 +7) Minimum Bayes Risk (MBR) decoding(§5.2):对条件生成/填空等场景,从多次采样集合S中选取最小期望风险的输出(如基于负BLEU的风险),提升单样本质量。 +8) sqrt noise schedule(Appendix A):提出更适合文本的噪声日程,使低噪声阶段不至于过“容易”,提升稳健性。 + +**第七个问题**:请告诉我这篇论文所使用的数据集,包括数据集的名称和来源。 + +训练数据集:E2E(E2E NLG dataset,Novikova et al. 2017,[28]),ROCStories(Mostafazadeh et al. 2016,[26])。控制/评测相关数据:Infilling任务的左右上下文来自aNLG(Abductive Natural Language Generation,Bhagavatula et al. 2020,[2],文中写“from the aNLG dataset”)。文中还提到用于数据增强的ROCStories (+GPT-J)为“微调GPT-J后生成的合成ROCStories样本”(用于额外对比似然/训练规模实验)。 + +**第八个问题**:请列举这篇论文评估方法的所有指标,并简要说明这些指标的作用。 + +1) ctrl(control success,成功率/得分,越高越好):不同控制任务有不同定义——语义内容用value exact match成功率;POS用词级别的POS序列exact match;Syntax Tree用外部parser解析后与目标树的F1;Syntax Spans用目标span类别匹配比例;Length用生成长度在目标±2内的比例 +2) lm-score(记作lm,越低越好):把生成文本喂给teacher LM(文中为fine-tuned GPT-2)计算perplexity,用于衡量流畅性/样本质量。 +3) NLL / log-likelihood bound(nats per token,越低越好):报告Diffusion-LM的变分界(L_e2e_vlb)对应的NLL上界/下界比较,用于衡量语言建模拟合度(文中指出Diffusion-LM似然弱于同规模AR Transformer)。 +4) Infilling自动指标:BLEU-4、ROUGE-L、CIDEr、BERTScore(越高越好),衡量生成句与参考的n-gram重叠、序列相似与语义相似。 +5) Infilling人工评估:Genie leaderboard的人类评分(表中以均值及置信区间/误差形式呈现),衡量整体可读性与合理连接左右上下文的质量。 + +**第九个问题**:请总结这篇论文实验的表现,包含具体的数值表现和实验结论。 + +五个classifier-guided控制任务(Table 2,ctrl↑/lm↓): +(1) Semantic Content:Diffusion-LM 81.2 / 2.55,优于PPLM 9.9 / 5.32与FUDGE 69.9 / 2.83,低于FT-search 89.9 / 1.78但接近或高于FT-sample 72.5 / 2.87; +(2) Parts-of-speech:Diffusion-LM 90.0 / 5.16,优于FUDGE 27.0 / 7.96,略低于FT-search 93.0 / 3.31、接近FT-sample 89.5 / 4.72; +(3) Syntax Tree:Diffusion-LM 86.0 / 3.71,显著优于FUDGE 17.9 / 3.39,并超过FT-search 76.4 / 3.24与FT-sample 64.8 / 5.72; +(4) Syntax Spans:Diffusion-LM 93.8 / 2.53,优于FUDGE 54.2 / 4.03,并超过FT-search 54.4 / 2.19与FT-sample 26.3 / 2.88; +(5) Length:Diffusion-LM 99.9 / 2.16,优于FUDGE 46.9 / 3.11,接近FT-search 100.0 / 1.83且优于FT-sample 98.1 / 3.84。 + +组合控制(Table 4):Semantic+Syntax Tree时Diffusion-LM语义/句法成功率69.8/74.8(lm 5.92),显著高于FUDGE 61.7/15.4;Semantic+POS时Diffusion-LM语义/ POS成功率63.7/69.1(lm 3.46),优于FUDGE 64.5/24.1。Infilling(Table 5):Diffusion-LM BLEU-4 7.1、ROUGE-L 28.3、CIDEr 30.7、BERTScore 89.0、人评0.37(+0.03/-0.02),显著高于DELOREAN与COLD(BLEU-4约1.6–1.8),并与专训AR-infilling接近(AR BLEU-4 6.7、ROUGE-L 27.0、CIDEr 26.9、BERTScore 89.0、人评0.39)。同时,语言建模似然上Diffusion-LM弱于AR Transformer:E2E NLL 2.28 vs 1.77,ROCStories 3.88 vs 3.05(§7),表明“更差似然但更强可控性”。 + +**第十个问题**:请清晰地描述论文所作的工作,分别列举出动机和贡献点以及主要创新之处。 + +动机:1) 真实应用需要可控生成,但为每个控制任务fine-tune成本高且难组合多个控制;2) 现有plug-and-play控制主要基于autoregressive LM,易累积错误、难做全局结构控制与右侧约束(如parse tree、span、长度规划、infilling);3) diffusion在连续域成功,但离散文本缺少有效的continuous diffusion建模与可控机制。 +贡献点:1) 提出Diffusion-LM:首批系统探索“continuous diffusion用于文本”的非自回归语言模型,通过逐步去噪生成word vectors并得到层级连续潜变量。2) 为离散文本适配扩散:提出端到端学习embedding与rounding的训练目标(L_e2e_*),并用x_0-parameterization与clamping trick显著减少rounding errors、提升样本质量。3) 提出面向控制的潜空间梯度引导算法:在每个扩散步对连续潜变量做多步梯度更新,并加入fluency regularization λ·log p(x_{t-1}|x_t),实现复杂结构控制与控制组合。4) 系统实验验证:在6类细粒度控制任务上显著超越PPLM/FUDGE,并在句法树/跨度控制上超过fine-tuning oracle;在infilling上优于COLD/DELOREAN且接近专训AR模型。 +主要创新之处:把“可控生成的优化变量”从离散token/AR隐藏状态迁移到“扩散产生的层级连续潜变量x_0:T”,使控制信号可以在粗到细的全句表示上施加可微约束,从而天然支持全局结构控制与组合,同时通过x_0参数化与clamping把连续扩散与离散词空间可靠对齐。 \ No newline at end of file diff --git a/papers/md/Flow-based Network Traffic Generation using Generative Adversarial Ne.md b/papers/md/Flow-based Network Traffic Generation using Generative Adversarial Ne.md new file mode 100644 index 0000000..16d6c0c --- /dev/null +++ b/papers/md/Flow-based Network Traffic Generation using Generative Adversarial Ne.md @@ -0,0 +1,48 @@ +# Flow-based Network Traffic Generation using Generative Adversarial Ne + + + +**第一个问题**:请对论文的内容进行摘要总结,包含研究背景与问题、研究目的、方法、主要结果和结论,字数要求在150-300字之间,使用论文中的术语和概念。 + +论文面向NIDS评估的flow-based数据稀缺与隐私/标注难题,提出用Generative Adversarial Networks生成逼真的NetFlow/IPFIX流。核心挑战是GAN仅能处理连续属性,而流数据含大量categorical字段(IP/端口/协议)。作者提出三种预处理与生成方法:N-WGAN-GP(数值归一化,将IP/port视为连续值)、B-WGAN-GP(二进制化,将IP/port/bytes/packets转为bit向量)、E-WGAN-GP(Embedding,将IP/port/bytes/packets/duration用IP2Vec学习到R^m连续嵌入);生成器采用Improved Wasserstein GAN with Gradient Penalty(WGAN-GP)与TTUR训练,评估采用分布可视化、属性逐维欧氏距离以及基于领域知识的七项质量测试。基于CIDDS-001数据(week2-4训练、每法生成8.5M flows),实验显示E-WGAN-GP与B-WGAN-GP能重现条件分布与结构关系(如子网行为、协议/端口一致性),E-WGAN-GP在domain checks整体最佳;N-WGAN-GP易产生不合理值。结论:GAN结合合适的离散到连续表示(尤其IP2Vec嵌入)可高质量生成flow-based网络流,用于NIDS训练与评估。 + +**第二个问题**:请提取论文的摘要原文,摘要一般在Abstract之后,Introduction之前。 + +Flow-based data sets are necessary for evaluating network-based intrusion detection systems (NIDS). In this work, we propose a novel methodology for generating realistic flow-based network traffic. Our approach is based on Generative Adversarial Networks (GANs) which achieve good results for image generation. A major challenge lies in the fact that GANs can only process continuous attributes. However, flow-based data inevitably contain categorical attributes such as IP addresses or port numbers. Therefore, we propose three different preprocessing approaches for flow-based data in order to transform them into continuous values. Further, we present a new method for evaluating the generated flow-based network traffic which uses domain knowledge to define quality tests. We use the three approaches for generating flow-based network traffic based on the CIDDS-001 data set. Experiments indicate that two of the three approaches are able to generate high quality data. Keywords: GANs, TTUR WGAN-GP, NetFlow, Generation, IDS + +**第三个问题**:请列出论文的全部作者,按照此格式:`作者1, 作者2, 作者3`。 + +Markus Ring, Daniel Schlör, Dieter Landes, Andreas Hotho + +**第四个问题**:请直接告诉我这篇论文发表在哪个会议或期刊,请不要推理或提供额外信息。 + +Computer & Security + +**第五个问题**:请详细描述这篇论文主要解决的核心问题,并用简洁的语言概述。 + +核心问题是:如何让仅能处理连续变量的GAN生成包含大量类别型字段(IP地址、端口、协议等)的flow-based网络流,并保证生成数据在分布多样性与内部语义关系(如子网结构、协议-端口一致性)上逼近真实流量,以用于NIDS的训练与评估。简述:通过将离散流属性转换为适合GAN的连续表示(数值化、二进制化或IP2Vec嵌入),用WGAN-GP+TTUR学习真实流特征并生成高质量合成流,再用领域知识规则与分布距离进行质量评估。 + +**第六个问题**:请告诉我这篇论文提出了哪些方法,请用最简洁的方式概括每个方法的核心思路。 + +(1) N-WGAN-GP:将IP四段与端口按数值归一化到[0,1],连续化bytes/packets/duration后,用WGAN-GP+TTUR生成。 (2) B-WGAN-GP:将IP映射为32位二进制、端口为16位二进制,bytes/packets为限定长度二进制表示,保留子网结构信息后,用WGAN-GP生成。 (3) E-WGAN-GP:扩展IP2Vec,学习IP/port/protocol及bytes/packets/duration的m维嵌入;GAN生成嵌入后通过最近邻(如余弦相似)反映射回原值。 (4) Baseline:独立抽样各属性的经验分布作为对照。 (5) 评估方法:分布可视化、逐属性欧氏距离、七项domain knowledge checks质量测试。 + + +**第七个问题**:请告诉我这篇论文所使用的数据集,包括数据集的名称和来源。 + +CIDDS-001(Flow-based benchmark data sets for intrusion detection),来源于Coburg University与Würzburg University的公开数据集;采用OpenStack仿真企业网络环境抓取的NetFlow,使用week2-4(约2200万flows)为训练、week1(约850万flows)为参考评估。 + +**第八个问题**:请列举这篇论文评估方法的所有指标,并简要说明这些指标的作用。 + +(1) 可视化分布(小提琴图/时间分布):检查条件分布与子网行为是否匹配真实流量。 (2) 属性欧氏距离:比较生成数据与训练集在各属性上的概率分布差异,衡量分布逼近程度与概念漂移合理性。 (3) Domain knowledge checks(7项规则):基于协议-旗标一致性、内部/外部IP约束、HTTP/HTTPS/DNS协议端口对应、广播/多播位置、NetBIOS流结构、bytes/packets范围关系等,检验内部语义与关系正确性。 (4) 生成规模与覆盖(每法生成8.5M flows):确保多样性与统计稳定性。 + +**第九个问题**:请总结这篇论文实验的表现,包含具体的数值表现和实验结论。 + +在CIDDS-001上,每种方法生成约8.5百万flows。时间分布方面,E-WGAN-GP曲线平滑且贴近真实week1的工作时段/午休行为。属性分布可视化显示:baseline无法捕获条件分布;N-WGAN-GP错误地集中到ext子网;B-WGAN-GP与E-WGAN-GP能区分客户端/服务器端口与目的IP范围。欧氏距离(相对week2-4):E-WGAN-GP在source/dest port、bytes、packets等属性上与参考week1相近(如destination port 0.0327,bytes 0.0278,packets 0.0251),N-WGAN-GP在端口/bytes/packets距离较大(如source port 0.5658,bytes 0.5858,packets 1.0416)。七项domain checks(%通过率):E-WGAN-GP在Test1–7整体最高(如Test1 99.77、Test2 99.98、Test7 99.49);B-WGAN-GP在协议端口一致性表现优(Test3 99.97、Test4 99.90),但在广播相关规则较弱(Test5 47.13、Test6 40.19);N-WGAN-GP在UDP/TCP旗标和DNS/HTTP规则明显较差(Test4 87.14);baseline整体最低。结论:E-WGAN-GP质量最佳、B-WGAN-GP次之且可生成未见值,N-WGAN-GP不适合。 + +**第十个问题**:请清晰地描述论文所作的工作,分别列举出动机和贡献点以及主要创新之处。 + +动机:NIDS评估缺乏最新、可共享且带标签的flow-based数据;GAN擅长生成,但网络流含大量类别型字段、语义关系复杂,直接应用受限。 + +贡献点:(1) 提出首个面向完整flow-based网络流的GAN生成框架,采用WGAN-GP+TTUR稳定训练;(2) 提出三种离散到连续转换策略(N/B/Embedding),系统解决GAN处理类别属性的关键障碍;(3) 扩展IP2Vec以学习bytes/packets/duration等数值字段的上下文化嵌入,并给出嵌入反映射方案;(4) 提出结合分布距离与七项领域知识规则的综合评估方法;(5) 在CIDDS-001大规模实验中验证两种方法能生成高质量数据。 + +主要创新:用IP2Vec嵌入将复杂离散网络流属性及数值属性统一到连续空间,使GAN能内生学习属性间条件依赖;提出领域知识驱动的质量测试,补足仅看分布的评估盲点;二进制化策略保留子网与结构信息,兼顾生成未见值的能力。 \ No newline at end of file diff --git a/papers/md/Graph Attention Networks.md b/papers/md/Graph Attention Networks.md new file mode 100644 index 0000000..f839f9e --- /dev/null +++ b/papers/md/Graph Attention Networks.md @@ -0,0 +1,62 @@ +# Graph Attention Networks + + + +**第一个问题**:请对论文的内容进行摘要总结,包含研究背景与问题、研究目的、方法、主要结果和结论,字数要求在150-300字之间,使用论文中的术语和概念。 + +本文提出Graph Attention Networks(GATs),针对谱域图卷积方法的计算昂贵、依赖拉普拉斯特征基、难以泛化到不同图结构等问题,以及空间方法在可变邻域与权重共享上的挑战。研究目的在于通过masked self-attentional层,使节点对其邻域特征进行自注意,从而隐式分配不同邻居的重要性,且无需昂贵矩阵运算或预先知道全局图结构,实现对transductive与inductive任务的统一处理。方法包括多头注意力、邻域softmax归一化系数、共享线性变换与注意力机制,支持并行化,复杂度与GCN相当。主要结果:在Cora、Citeseer、Pubmed三大引文网络(transductive)与PPI蛋白互作数据(inductive)上,GAT达到或匹配state-of-the-art,在PPI上显著优于GraphSAGE,并优于同架构的常数注意版本。结论:GAT高效、可解释、可扩展到未见图,解决谱方法局限,展示了注意力在图结构数据上的潜力。 + +**第二个问题**:请提取论文的摘要原文,摘要一般在Abstract之后,Introduction之前。 + +We present graph attention networks (GATs), novel neural network architectures that operate on graph-structured data, leveraging masked self-attentional layers to address the shortcomings of prior methods based on graph convolutions or their approximations. By stacking layers in which nodes are able to attend over their neighborhoods’ features, we enable (implicitly) specifying different weights to different nodes in a neighborhood, without requiring any kind of costly matrix operation (such as inversion) or depending on knowing the graph structure upfront. In this way, we address several key challenges of spectral-based graph neural networks simultaneously, and make our model readily applicable to inductive as well as transductive problems. Our GAT models have achieved or matched state-of-the-art results across four established transductive and inductive graph benchmarks: the Cora, Citeseer and Pubmed citation network datasets, as well as a protein-protein interaction dataset (wherein test graphs remain unseen during training). + +**第三个问题**:请列出论文的全部作者,按照此格式:`作者1, 作者2, 作者3`。 + +Petar Veličković, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Liò, Yoshua Bengio + +**第四个问题**:请直接告诉我这篇论文发表在哪个会议或期刊,请不要推理或提供额外信息。 + +ICLR 2018 + +**第五个问题**:请详细描述这篇论文主要解决的核心问题,并用简洁的语言概述。 + +核心问题:如何在图结构数据上高效、可泛化地进行节点表示学习与分类,同时克服谱方法对拉普拉斯特征基与固定图结构的依赖、昂贵的矩阵运算,以及空间方法在处理可变大小邻域与统一权重共享的困难。简述:GAT通过masked self-attention让每个节点对其邻域特征分配不同权重,避免昂贵谱分解,支持并行化与inductive设置,从而提升性能与可扩展性。 + +**第六个问题**:请告诉我这篇论文提出了哪些方法,请用最简洁的方式概括每个方法的核心思路。 + +1) 图注意力层(GAT layer):共享线性变换W后,对邻域执行自注意力a(Wh_i, Wh_j),用softmax归一化得到α_ij,加权聚合邻居特征并非线性输出。 +2) 多头注意力:并行K个独立注意头,隐藏层拼接以增强稳定性与表达力,输出层平均以做分类。 +3) 掩蔽注意(masked attention):仅在一阶邻域内计算注意系数,注入图结构同时保持操作可并行。 +4) 常数注意对照(Const-GAT):使用a(x,y)=1的恒定权重以对比注意机制带来的增益。 +5) 稀疏实现与并行化策略:采用稀疏矩阵操作降低存储与时间成本(实现层面说明)。 + +**第七个问题**:请告诉我这篇论文所使用的数据集,包括数据集的名称和来源。 + +- Cora(citation network,节点为文档,边为引用;来源:Sen et al., 2008,并按Yang et al., 2016的transductive设置) +- Citeseer(citation network;来源:Sen et al., 2008;设置同上) +- Pubmed(citation network;来源:Sen et al., 2008;设置同上) +- PPI(Protein-Protein Interaction,多个组织的图;来源:Zitnik & Leskovec, 2017;使用Hamilton et al., 2017提供的预处理数据) + +**第八个问题**:请列举这篇论文评估方法的所有指标,并简要说明这些指标的作用。 + +- 分类准确率(accuracy):用于Cora、Citeseer、Pubmed的节点分类性能度量,反映预测正确的比例。 +- 微平均F1分数(micro-averaged F1):用于PPI多标签节点分类,综合精确率与召回率并在样本层面微平均,衡量整体多标签预测质量。 +- 额外报告标准差:展示多次运行的稳定性与方差。 + +**第九个问题**:请总结这篇论文实验的表现,包含具体的数值表现和实验结论。 + +- Transductive(100次运行均值±标准差):Cora:GAT 83.0±0.7%,优于GCN 81.5%与MoNet 81.7%;Citeseer:GAT 72.5±0.7%,优于GCN 70.3%;Pubmed:GAT 79.0±0.3%,匹配GCN 79.0%与优于多数基线。 +- Inductive(10次运行):PPI:GAT 0.973±0.002 micro-F1,显著优于GraphSAGE最优0.768与Const-GAT 0.934±0.006。 结论:GAT在三个引文网络上达到或超越SOTA,在PPI上大幅领先,证明了对整个邻域进行注意加权以及自注意机制带来的显著增益与泛化能力。 + +**第十个问题**:请清晰地描述论文所作的工作,分别列举出动机和贡献点以及主要创新之处。 + +- 动机:解决谱方法对图拉普拉斯特征基的依赖与计算代价,空间方法在可变邻域与权重共享的局限;构建能在未见图上进行inductive推理的高效模型。 +- 贡献点: + 1. 提出图注意力层(GAT),在邻域内进行masked self-attention,隐式分配不同邻居权重; + 2. 设计多头注意力用于稳定训练与提升表达力,输出层平均以适配分类; + 3. 提供与GCN同量级的时间复杂度与并行化实现,适用于transductive与inductive任务; + 4. 在Cora、Citeseer、Pubmed与PPI上达到或刷新SOTA,显著优于GraphSAGE与常数注意对照。 +- 主要创新: + - 将自注意力机制引入图邻域聚合,使用节点特征计算相似度并softmax归一化的掩蔽注意; + - 多头图注意结构的层级堆叠与输出层平均策略; + - 不依赖全局图结构即可进行学习与推理,支持完全未见测试图的inductive设置。 \ No newline at end of file diff --git a/papers/md/GraphMAE Self-Supervised Masked Graph Autoencoders.md b/papers/md/GraphMAE Self-Supervised Masked Graph Autoencoders.md new file mode 100644 index 0000000..36e41c9 --- /dev/null +++ b/papers/md/GraphMAE Self-Supervised Masked Graph Autoencoders.md @@ -0,0 +1,58 @@ +# **GraphMAE: Self-Supervised Masked Graph Autoencoders** + + + +**第一个问题**:请对论文的内容进行摘要总结,包含研究背景与问题、研究目的、方法、主要结果和结论,字数要求在150-300字之间,使用论文中的术语和概念。 + +论文关注图自监督学习中“contrastive learning主导、generative SSL/graph autoencoders(GAEs)未发挥潜力”的现状,指出GAEs受四类问题制约:过度强调structure reconstruction、无corruption的feature reconstruction易学到trivial solution、MSE对特征范数/维度敏感导致训练不稳、MLP decoder表达力不足。研究目的在于系统缓解这些缺陷,使GAE在node/graph classification与transfer learning上可与甚至超越SOTA对比学习方法。方法上提出GraphMAE:采用masked feature reconstruction作为目标(而非重建结构),用[MASK]做输入特征遮蔽并在解码前re-mask([DMASK]),引入更具表达力的GNN decoder,并以scaled cosine error(SCE)替代MSE以提升稳定性与对hard samples的选择性。实验覆盖21个公开数据集、三类任务,GraphMAE在节点分类上如Cora 84.2%、PubMed 81.1%、Reddit 96.0%,图分类与分子迁移学习也整体优于或匹配SOTA基线。结论是:经过关键设计的简单masked GAE可稳定释放generative SSL在图上的潜力。 + +**第二个问题**:请提取论文的摘要原文,摘要一般在Abstract之后,Introduction之前。 + +Self-supervised learning (SSL) has been extensively explored in recent years. Particularly, generative SSL has seen emerging suc-cess in natural language processing and other AI fields, such as the wide adoption of BERT and GPT. Despite this, contrastive learning—which heavily relies on structural data augmentation and compli-cated training strategies—has been the dominant approach in graph SSL, while the progress of generative SSL on graphs, especially graph autoencoders (GAEs), has thus far not reached the potential as promised in other fields. In this paper, we identify and exam-ine the issues that negatively impact the development of GAEs, including their reconstruction objective, training robustness, and error metric. We present a masked graph autoencoder GraphMAE that mitigates these issues for generative self-supervised graph pre-training. Instead of reconstructing graph structures, we propose to focus on feature reconstruction with both a masking strategy and scaled cosine error that benefit the robust training of Graph-MAE. We conduct extensive experiments on 21 public datasets for three different graph learning tasks. The results manifest that GraphMAE—a simple graph autoencoder with careful designs—can consistently generate outperformance over both contrastive and generative state-of-the-art baselines. This study provides an under-standing of graph autoencoders and demonstrates the potential of generative self-supervised pre-training on graphs. + +**第三个问题**:请列出论文的全部作者,按照此格式:`作者1, 作者2, 作者3`。 + +Zhenyu Hou, Xiao Liu, Yukuo Cen, Yuxiao Dong, Hongxia Yang, Chunjie Wang, Jie Tang + +**第四个问题**:请直接告诉我这篇论文发表在哪个会议或期刊,请不要推理或提供额外信息。 + +KDD ’22 + +**第五个问题**:请详细描述这篇论文主要解决的核心问题,并用简洁的语言概述。 + +论文要解决的核心问题是:为什么graph autoencoders(GAEs)在图自监督中长期弱于对比学习,以及如何让“生成式自监督(generative SSL)”在图上达到与对比学习相当甚至更强的表征质量,尤其面向node/graph classification与预训练迁移。作者总结了制约GAEs的关键瓶颈:①目标偏差:大量GAE以link/structure reconstruction为主,导致对分类任务帮助有限;②鲁棒性不足:不做输入corruption的feature reconstruction容易学到identity function/trivial solution,图特征维度通常较小使该问题更突出;③误差度量不合适:MSE对特征范数差异与维度灾难敏感、训练易不稳定甚至collapse,且对易/难样本区分度低;④decoder表达力弱:常用MLP难以从低语义连续特征中有效“拉开”编码与重建目标,导致潜变量退化为原始特征拷贝。简洁概述:把GAE从“重建结构+MSE+弱解码”改造为“masked特征重建+稳定的SCE损失+GNN解码与re-mask正则”,从根上提升生成式图预训练的可用性与效果。 + +**第六个问题**:请告诉我这篇论文提出了哪些方法,请用最简洁的方式概括每个方法的核心思路。 + +1) GraphMAE(Masked Graph Autoencoder):仅以feature reconstruction为自监督目标,通过遮蔽部分节点特征来学习可迁移表示。 +2) Masked feature reconstruction:随机采样节点子集V~并用可学习向量[MASK]替换其输入特征,迫使编码器利用邻域上下文恢复信息、避免trivial solution。 +3) Re-mask decoding:在解码前将被遮蔽节点的编码表示再次替换为[DMASK],让解码器必须依赖邻居的未遮蔽潜表示来重建被遮蔽节点特征。 +4) GNN decoder:用单层GNN(如GAT/GIN/GCN)替代传统MLP解码器,提高解码表达力并引导编码器学习更高层潜表示。 +5) Scaled Cosine Error(SCE):以(1-cosine(x,z))^γ作为重建损失,利用余弦误差消除范数/维度敏感性,并用γ实现对hard samples的“focal”式重加权,提升训练稳定性与选择性。 +6) Random-substitution(可选策略):对被mask节点用随机替换而非“leave unchanged”,减轻训练/推理的mask-token分布偏移(论文指出leave-unchanged会伤害效果)。 + +**第七个问题**:请告诉我这篇论文所使用的数据集,包括数据集的名称和来源。 + +节点分类(6个):Cora, Citeseer, PubMed(引文网络,论文引用[48]等经典基准);ogbn-arxiv(Open Graph Benchmark,OGB,论文引用[15]);PPI, Reddit(GraphSAGE常用归纳基准,论文引用其inductive setting来自GraphSAGE[10])。 +图分类(7个):MUTAG, IMDB-B, IMDB-M, PROTEINS, COLLAB, REDDIT-B, NCI1(论文引用[47]等图分类基准集合)。迁移学习/分子性质预测:预训练数据为ZINC15(2 million无标签分子,论文引用[33]),下游为MoleculeNet(论文引用[43])的8个分类数据集:BBBP, Tox21, ToxCast, SIDER, ClinTox, MUV, HIV, BACE。 + +**第八个问题**:请列举这篇论文评估方法的所有指标,并简要说明这些指标的作用。 + +节点分类:Accuracy(Cora/Citeseer/PubMed/ogbn-arxiv/Reddit)用于衡量单标签分类正确率;Micro-F1(PPI,多标签)用于在多标签场景下按全局TP/FP/FN统计综合衡量分类质量。 +图分类:Accuracy(10-fold cross-validation accuracy,报告均值与标准差)用于衡量图级标签预测正确率,并用10折交叉验证减少划分方差。 +迁移学习(分子性质预测):ROC-AUC(%)衡量二分类在不同阈值下的排序/区分能力,对类别不均衡更稳健。 +论文还报告了均值±标准差、以及部分实验“20次线性分类器随机初始化平均”等作为统计稳定性呈现方式。 + +**第九个问题**:请总结这篇论文实验的表现,包含具体的数值表现和实验结论。 + +节点分类(Table 1):GraphMAE在Cora 84.2±0.4,Citeseer 73.4±0.4,PubMed 81.1±0.4,ogbn-arxiv 71.75±0.17,PPI Micro-F1 74.50±0.29,Reddit 96.01±0.08;相较代表性对比方法CCA-SSG分别为Cora 84.0±0.4、PubMed 81.0±0.4、Reddit 95.07±0.02等,GraphMAE整体为最佳或竞争性最强,并显著超过生成式基线如GAE(Cora 71.5±0.4)与GPT-GNN(Cora 80.1±1.0)。 +图分类(Table 2,accuracy):GraphMAE在IMDB-B 75.52±0.66、IMDB-M 51.63±0.52、PROTEINS 75.30±0.39、COLLAB 80.32±0.46、MUTAG 88.19±1.26、REDDIT-B 88.01±0.19、NCI1 80.40±0.30;在5/7数据集上优于所有自监督基线,并在其余数据集上具竞争力(如MUTAG略低于InfoGCL 91.20±1.30但与多基线接近)。 +迁移学习(Table 3,ROC-AUC Avg.):GraphMAE平均73.8,优于GraphLoG 73.4、JOAO 71.9、GraphCL 70.8等;在单项上如ClinTox 82.3±1.2、HIV 83.1±0.9等表现突出。 +消融(Table 4):去掉mask(Cora 79.7)、用MSE替代SCE(Cora 79.1)都会大幅降分;去掉re-mask也会下降(Cora 82.7)。 +实验结论:GraphMAE通过“mask + re-mask + GNN decoder + SCE”实现稳定训练,使生成式图预训练在节点/图分类与分子迁移上系统性达到或超过SOTA对比学习。 + +**第十个问题**:请清晰地描述论文所作的工作,分别列举出动机和贡献点以及主要创新之处。 + +动机:1) 图自监督长期依赖contrastive learning,但其需要复杂训练策略(动量编码器/EMA/stop-gradient)、负样本与高质量图增强,工程与理论负担重且跨图不稳;2) GAEs天然更简单,但在分类任务上落后,作者希望找出其“没做对”的关键原因并让generative SSL在图上复兴。 +贡献点:1) 系统识别GAEs发展的关键障碍:重建目标偏置(结构优先)、无corruption导致trivial solution、MSE引发不稳定与低选择性、decoder表达力不足。2) 提出GraphMAE框架:以masked feature reconstruction为核心,避免结构重建带来的任务偏置并提升分类导向表征。3) 提出Scaled Cosine Error(SCE):用余弦误差解决范数/维度敏感,并用γ缩放实现对难样本的自适应重加权(类focal loss思想),显著提升训练鲁棒性。4) 提出re-mask decoding + GNN decoder:通过[DMASK]与图解码器迫使信息从邻域潜表示流入重建,增强压缩表征学习。5) 在21个公开数据集、三类任务上给出系统实证:GraphMAE作为“简单但设计到位的GAE”可持续优于对比与生成式SOTA基线。 +主要创新之处:将“MAE式遮蔽重建”迁移到图并针对图特征连续/低语义、易trivial解的特性,联合设计SCE损失与re-mask+GNN解码,使生成式图自监督在稳定性与效果上同时跨越式提升。 \ No newline at end of file diff --git a/papers/md/Heterogeneous Graph Transformer.md b/papers/md/Heterogeneous Graph Transformer.md new file mode 100644 index 0000000..b72ee4f --- /dev/null +++ b/papers/md/Heterogeneous Graph Transformer.md @@ -0,0 +1,54 @@ +# Heterogeneous Graph Transformer + + + +**第一个问题**:请对论文的内容进行摘要总结,包含研究背景与问题、研究目的、方法、主要结果和结论,字数要求在150-300字之间,使用论文中的术语和概念。 + +论文面向Web-scale heterogeneous graphs(节点/边多类型且随时间演化)中现有GNN多为homogeneous设计、依赖手工meta paths、难刻画异构分布差异与动态、且不具备可扩展训练的问题,提出Heterogeneous Graph Transformer(HGT)。研究目的在于:用端到端方式学习node- and edge-type dependent representations,隐式学习“soft meta paths”,并能处理dynamic heterogeneous graphs与超大规模训练。方法上,HGT以meta relation ⟨τ(s),φ(e),τ(t)⟩分解参数,构建异构mutual attention、message passing与target-specific aggregation;引入Relative Temporal Encoding(RTE)用相对时间差∆T建模任意跨度的时序依赖;提出HGSampling以保持各类型节点比例与子图稠密性,实现mini-batch训练。实验在OAG(179M nodes/2B edges)及CS/Med子图上,HGT在Paper–Field、Paper–Venue与Author Disambiguation等任务上相对SOTA基线提升9%–21%,消融显示Heter与RTE均显著贡献。结论是HGT可在大规模异构动态图上高效、稳定优于现有GNN。 + +**第二个问题**:请提取论文的摘要原文,摘要一般在Abstract之后,Introduction之前。 + +Recent years have witnessed the emerging success of graph neu-ral networks (GNNs) for modeling structured data. However, most GNNs are designed for homogeneous graphs, in which all nodes and edges belong to the same types, making them infeasible to represent heterogeneous structures. In this paper, we present the Heterogeneous Graph Transformer (HGT) architecture for mod-eling Web-scale heterogeneous graphs. To model heterogeneity, we design node- and edge-type dependent parameters to charac-terize the heterogeneous attention over each edge, empowering HGT to maintain dedicated representations for different types of nodes and edges. To handle dynamic heterogeneous graphs, we in-troduce the relative temporal encoding technique into HGT, which is able to capture the dynamic structural dependency with arbitrary durations. To handle Web-scale graph data, we design the hetero-geneous mini-batch graph sampling algorithm—HGSampling—for efficient and scalable training. Extensive experiments on the Open Academic Graph of 179 million nodes and 2 billion edges show that the proposed HGT model consistently outperforms all the state-of-the-art GNN baselines by 9%–21%on various downstream tasks. The dataset and source code of HGT are publicly available at https://github.com/acbull/pyHGT. + +**第三个问题**:请列出论文的全部作者,按照此格式:`作者1, 作者2, 作者3`。 + +Ziniu Hu, Yuxiao Dong, Kuansan Wang, Yizhou Sun + +**第四个问题**:请直接告诉我这篇论文发表在哪个会议或期刊,请不要推理或提供额外信息。 + +Proceedings of The Web Conference 2020 (WWW ’20) + +**第五个问题**:请详细描述这篇论文主要解决的核心问题,并用简洁的语言概述。 + +论文要解决的核心问题是:在Web级别的异构信息网络中,如何在不依赖手工meta paths的前提下,同时(1)刻画不同node/edge类型带来的分布差异与语义差异(heterogeneity),(2)刻画图随时间演化带来的结构依赖(dynamic),并且(3)在数亿节点、数十亿边上实现可扩展的GNN训练(scalability)。现有异构GNN往往只按node type或edge type单独建模、参数难以共享导致稀有关系学习不稳;对动态图常用“按时间切片建多个图”会丢失跨时间结构依赖;训练上直接全图传播不可行,现有采样在异构图上会产生类型极不均衡子图。简洁概述:提出一种以meta relation驱动的Transformer式异构注意力GNN,并配套相对时间编码与异构小批量采样,使其能在超大规模异构动态图上端到端学习表示并提升下游任务效果。 + +**第六个问题**:请告诉我这篇论文提出了哪些方法,请用最简洁的方式概括每个方法的核心思路。 + +1) HGT(Heterogeneous Graph Transformer):用meta relation ⟨τ(s),φ(e),τ(t)⟩对注意力与消息传递参数进行分解与共享,构建异构multi-head mutual attention、异构message passing与target-specific aggregation(含残差)以生成上下文化表示。 +2) Heterogeneous Mutual Attention:对不同node type使用不同的Key/Query线性投影,并对不同edge type使用W_ATT变换,再用meta-relation prior μ对注意力进行自适应缩放。 +3) Heterogeneous Message Passing:对不同source node type使用不同的消息线性投影M-Linear,并用每种edge type的W_MSG注入关系语义,形成多头消息。 +4) RTE(Relative Temporal Encoding):用相对时间差∆T(t,s)=T(t)-T(s)查找/生成sinusoid basis并经线性层T-Linear映射,将RTE(∆T)加到source表示以建模任意跨度、可泛化到未见时间的动态依赖。 +5) HGSampling:为每种node type维护独立budget并用归一化度数的importance sampling,采样出类型比例更均衡且更稠密的异构子图,用于mini-batch训练。 +6) Inductive Timestamp Assignment:对无固定时间戳的plain nodes在采样时从相连event nodes继承时间戳,以支持动态建模。 + +**第七个问题**:请告诉我这篇论文所使用的数据集,包括数据集的名称和来源。 + +1) Open Academic Graph(OAG):论文实验基础数据集,引用[16,20,28],规模约178/179 million nodes与2.236/2 billion edges,时间跨度1900–2019。 +2) Computer Science(CS)学术图:从OAG构建的领域子图。 +3) Medicine(Med)学术图:从OAG构建的领域子图。代码与数据入口:论文给出公开仓库 https://github.com/acbull/pyHGT。 + +**第八个问题**:请列举这篇论文评估方法的所有指标,并简要说明这些指标的作用。 + +论文使用两类排序指标:NDCG(Normalized Discounted Cumulative Gain):衡量排序结果在Top位置的相关性质量,对靠前位置赋予更高权重,适用于多标签/多候选的ranking式评估;MRR(Mean Reciprocal Rank):对每个查询取正确答案排名的倒数再求均值,反映模型把正确答案排到前面的能力,常用于link prediction与候选排序任务。 + +**第九个问题**:请总结这篇论文实验的表现,包含具体的数值表现和实验结论。 + +总体结论:HGT在CS/Med/OAG三套大规模异构图、四个任务上,NDCG与MRR均显著且一致优于GCN/GAT/RGCN/HetGNN/HAN,并在参数量与batch time上优于多数异构GNN基线。 +关键数值(Table 2,均值±方差,列出HGT完整版 HGT(+RTE,+Heter) 与最佳基线HAN对比为主):在OAG的Paper–Field(L1)上,HAN NDCG 0.544±0.096 / MRR 0.622±0.092,HGT达0.615±0.084 / 0.702±0.081;在OAG的Paper–Venue上,HAN NDCG 0.327±0.062 / MRR 0.214±0.067,HGT达0.355±0.062 / 0.247±0.061;在OAG的Author Disambiguation上,HAN NDCG 0.821±0.056 / MRR 0.660±0.049,HGT达0.852±0.048 / 0.688±0.054。CS数据集的Paper–Field(L1)上,HAN NDCG 0.618±0.058 / MRR 0.691±0.051,HGT达0.718±0.014 / 0.823±0.019;Med数据集的Paper–Field(L1)上,HAN NDCG 0.607±0.054 / MRR 0.575±0.057,HGT达0.709±0.029 / 0.688±0.048。 +消融:去掉异构参数化(HGT +RTE −Heter)相对完整版有约4%性能下降;去掉RTE(HGT −RTE +Heter)约2%下降。效率(表中示例):在CS任务设置下,HGT参数量8.20M、batch time约1.50s,低于HAN的9.45M与2.27s,且优于RGCN/HetGNN的参数规模与速度。 + +**第十个问题**:请清晰地描述论文所作的工作,分别列举出动机和贡献点以及主要创新之处。 + +动机:1) 现实系统(学术网/社交网/经济网/IoT)天然是heterogeneous graphs,homogeneous GNN假设不成立;2) 既有异构方法依赖手工meta paths或仅按node/edge单维度建模,难同时捕获共享模式与特定模式;3) 真实图是dynamic heterogeneous graph,时间切片会丢失跨时间结构依赖;4) Web-scale规模下需要可扩展mini-batch训练,现有采样在异构图上会产生类型失衡与信息损失。 +贡献点:1) 提出HGT架构:以meta relation ⟨τ(s),φ(e),τ(t)⟩为核心进行参数分解与共享,定义异构mutual attention、message passing与target-specific aggregation,实现无需手工meta paths的端到端异构表示学习(隐式“soft meta paths”)。2) 提出RTE:基于相对时间差的时间编码机制,可建模任意时长、并泛化到未见时间戳/未来时间。3) 提出HGSampling与配套的inductive timestamp assignment:在Web级异构图上采样类型更均衡且更稠密的子图,支持高效mini-batch训练与动态图时间戳分配。4) 在OAG(179M/2B)及CS/Med子图上进行大规模实验,证明相对SOTA基线持续提升(论文总结为9%–21%)。 +主要创新之处:将Transformer式多头注意力与“基于meta relation的三元分解参数化(node-type投影 + edge-type变换 + meta-relation prior)”结合,实现更强的异构建模与更高的参数共享效率;同时把相对时间编码与异构专用采样机制纳入统一训练框架,使模型真正可落地于Web-scale异构动态图。 \ No newline at end of file diff --git a/papers/md/How Powerful are Graph Neural Networks.md b/papers/md/How Powerful are Graph Neural Networks.md new file mode 100644 index 0000000..786eeee --- /dev/null +++ b/papers/md/How Powerful are Graph Neural Networks.md @@ -0,0 +1,59 @@ +# How Powerful are Graph Neural Networks + + + +**第一个问题**:请对论文的内容进行摘要总结,包含研究背景与问题、研究目的、方法、主要结果和结论,字数要求在150-300字之间,使用论文中的术语和概念。 + +摘要总结:本文系统分析Graph Neural Networks(GNNs)的表达能力,构建与Weisfeiler–Lehman(WL)图同构测试紧密关联的理论框架。研究目的在于形式化刻画主流GNN变体(如GCN、GraphSAGE)的判别能力及局限,并提出一个在邻域聚合(message passing)类方法中“最强”的架构。方法上,作者将邻域表示为multiset,研究不同AGGREGATE与READOUT的可区分性条件,证明满足“注入”聚合与读出时,GNN至多与WL等强,并提出Graph Isomorphism Network(GIN),使用sum聚合与MLP实现对multiset的通用函数逼近。主要结果显示:常用的mean/max聚合或1-layer感知机不足以区分简单结构;GIN在多项图分类基准上达到SOTA,训练拟合几乎完美且测试表现优异。结论:GNN的判别力上限由WL测试界定,具备注入式聚合与读出(如GIN)的架构在表达力上最强,同时在实践中表现领先。 + +**第二个问题**:请提取论文的摘要原文,摘要一般在Abstract之后,Introduction之前。 + +Graph Neural Networks (GNNs) are an effective framework for representation learning of graphs. GNNs follow a neighborhood aggregation scheme, where the representation vector of a node is computed by recursively aggregating and transforming representation vectors of its neighboring nodes. Many GNN variants have been proposed and have achieved state-of-the-art results on both node and graph classification tasks. However, despite GNNs revolutionizing graph representation learning, there is limited understanding of their representational properties and limitations. Here, we present a theoretical framework for analyzing the expressive power of GNNs to capture different graph structures. Our results characterize the discriminative power of popular GNN variants, such as Graph Convolutional Networks and GraphSAGE, and show that they cannot learn to distinguish certain simple graph structures. We then develop a simple architecture that is provably the most expressive among the class of GNNs and is as powerful as the Weisfeiler-Lehman graph isomorphism test. We empirically validate our theoretical findings on a number of graph classification benchmarks, and demonstrate that our model achieves state-of-the-art performance. + +**第三个问题**:请列出论文的全部作者,按照此格式:`作者1, 作者2, 作者3`。 + +Keyulu Xu, Weihua Hu, Jure Leskovec, Stefanie Jegelka + +**第四个问题**:请直接告诉我这篇论文发表在哪个会议或期刊,请不要推理或提供额外信息。 + +ICLR 2019 + +**第五个问题**:请详细描述这篇论文主要解决的核心问题,并用简洁的语言概述。 + +核心问题:在邻域聚合(message passing)框架下,GNN到底能多强,能区分哪些图结构、在哪些情况下失效,以及如何构造在此类GNN中表达力最强、与Weisfeiler–Lehman测试等强的模型。简述:论文给出一个以multiset函数为基础的理论框架,证明常见聚合(mean/max)和1-layer感知机存在不可区分的结构,同时提出使用sum聚合+MLP的GIN,使GNN的判别力达到WL测试的上限。 + +**第六个问题**:请告诉我这篇论文提出了哪些方法,请用最简洁的方式概括每个方法的核心思路。 + +1) 理论框架(GNN表达力与WL测试):将邻域表示为multiset,分析AGGREGATE/READOUT的“注入性”条件,给出GNN判别力的上界与等价条件。 +2) Graph Isomorphism Network(GIN):用sum聚合实现对multiset的通用近似(injective),结合MLP与(1+ε)·self项,逐层更新h_v并在图级通过各层READOUT的拼接/求和形成h_G,达到与WL等强的表达力。 +3) 聚合器对比分析:形式化比较sum、mean、max对multiset的捕获能力(分别对应完整multiset、分布、集合骨架),揭示其区分能力差异。 +4) 经验验证设置:在图分类基准上对比GIN与“较弱”变体(mean/max或1-layer),验证理论结论。 + +**第七个问题**:请告诉我这篇论文所使用的数据集,包括数据集的名称和来源。 + +- Bioinformatics:MUTAG、PTC、NCI1、PROTEINS(来源于Yanardag & Vishwanathan, 2015汇总的图分类基准)。 +- Social networks:COLLAB、IMDB-BINARY、IMDB-MULTI、REDDIT-BINARY、REDDIT-MULTI5K(同样来源于Yanardag & Vishwanathan, 2015)。 备注:社交网络数据部分节点无特征,使用度或常数特征;生物数据含离散节点标签。 + +**第八个问题**:请列举这篇论文评估方法的所有指标,并简要说明这些指标的作用。 + +- 图分类准确率(accuracy,10折交叉验证均值±标准差):衡量模型在图级分类任务上的泛化性能。 +- 训练准确率曲线:衡量不同聚合/架构的表示能力与拟合强度,验证表达力理论结论。 +- 与WL subtree kernel对比:作为强判别的非学习基线,对训练拟合与测试性能进行参考。 + +**第九个问题**:请总结这篇论文实验的表现,包含具体的数值表现和实验结论。 + +- 训练表现:GIN-ε与GIN-0在9个数据集上几乎完美拟合训练集;mean/max或1-layer变体在多数据集显著欠拟合,训练准确率明显较低。 +- 测试准确率(10折均值±标准差):例如IMDB-BINARY GIN-0为75.1±5.1%,REDDIT-BINARY 92.4±2.5%,REDDIT-MULTI5K 57.5±1.5%,COLLAB 80.2±1.9%,MUTAG 89.4±5.6%,PROTEINS 76.2±2.8%,PTC 64.6±7.0,NCI1 82.7±1.7;在REDDIT类数据上mean-MLP接近随机(50.0±0.0%,20.0±0.0%)。总体结论:GIN在多数基准上达到或优于SOTA,强表达力带来更好的训练拟合与测试表现;简单聚合器存在结构不可分能力,导致性能下降。 + +**第十个问题**:请清晰地描述论文所作的工作,分别列举出动机和贡献点以及主要创新之处。 + +- 动机:缺乏对GNN表达力的系统理论理解;现有设计依赖经验与试错,未明确其能区分哪些结构、上限为何、如何构造更强模型。 +- 贡献点: + 1. 提出以multiset函数为核心的理论框架,形式化分析GNN的判别力与其与WL测试的关系,上界与等强条件; + 2. 证明常见变体(GCN、GraphSAGE的mean/max、1-layer感知机)无法区分某些简单图结构,刻画其能捕获的性质(分布或集合骨架); + 3. 设计GIN,用sum聚合+MLP(含(1+ε)自项)实现注入式邻域聚合与图级读出,达到与WL等强的表达力; + 4. 在9个图分类基准上实证验证,GIN取得SOTA或可比表现,训练几乎完美拟合,支撑理论结论。 +- 主要创新: + - 将GNN聚合视为multiset上的通用函数并给出注入性条件,建立与WL测试的等强判别理论; + - 提出GIN这一简单而最强的邻域聚合GNN架构(sum+MLP+(1+ε)),并配套跨层READOUT设计; + - 系统揭示sum/mean/max的表达差异与失效例,指导GNN聚合器选择与任务匹配。 \ No newline at end of file diff --git a/papers/md/Learn&Fuzz Machine Learning for Input Fuzzing.md b/papers/md/Learn&Fuzz Machine Learning for Input Fuzzing.md new file mode 100644 index 0000000..8a7653c --- /dev/null +++ b/papers/md/Learn&Fuzz Machine Learning for Input Fuzzing.md @@ -0,0 +1,47 @@ +# Learn&Fuzz Machine Learning for Input Fuzzing + + + +**第一个问题**:请对论文的内容进行摘要总结,包含研究背景与问题、研究目的、方法、主要结果和结论,字数要求在150-300字之间,使用论文中的术语和概念。 + +论文聚焦grammar-based fuzzing的关键瓶颈:需要手工编写input grammar,过程费时且易错;而复杂结构化格式(如PDF)又最依赖该类fuzzing。研究目的在于用neural-network-based statistical learning自动生成可用于输入fuzzing的grammar/生成模型,并解决learn&fuzz张力(learning偏向生成well-formed inputs,fuzzing需要破坏结构以覆盖error-handling与意外路径)。方法上对约63,000个non-binary PDF objects进行无监督训练,采用seq2seq RNN(LSTM)学习字符级概率分布,并提出NoSample/Sample/SampleSpace三种采样生成策略及基于概率分布引导“where to fuzz”的SampleFuzz算法。实验以Microsoft Edge PDF parser为目标,用instruction coverage、pass rate与AppVerifier监测bugs评估:SampleSpace在50 epochs达97% pass rate;整体覆盖最佳为Sample-40e;在learn+fuzz组合中SampleFuzz以567,634条指令覆盖、68.24% pass rate取得最高覆盖并优于多种random fuzzing基线,且在更长实验中发现并修复一个stack-overflow bug。结论:统计生成模型可自动学习输入结构,并用概率信息更智能地施加fuzz以提升覆盖。 + +**第二个问题**:请提取论文的摘要原文,摘要一般在Abstract之后,Introduction之前。 + +Abstract.Fuzzing consists of repeatedly testing an application with modified, or fuzzed, inputs with the goal of finding security vulnerabili-ties in input-parsing code. In this paper, we show how to automate the generation of an input grammar suitable for input fuzzing using sam-ple inputs and neural-network-based statistical machine-learning tech-niques. We present a detailed case study with a complex input format, namely PDF, and a large complex security-critical parser for this format, namely, the PDF parser embedded in Microsoft’s new Edge browser. We discuss (and measure) the tension between conflicting learning and fuzzing goals: learning wants to capture the structure of well-formed in-puts, while fuzzing wants to break that structure in order to cover unex-pected code paths and find bugs. We also present a new algorithm for this learn&fuzz challenge which uses a learnt input probability distribution to intelligently guide where to fuzz inputs. + +**第三个问题**:请列出论文的全部作者,按照此格式:`作者1, 作者2, 作者3`。 + +Patrice Godefroid, Hila Peleg, Rishabh Singh + +**第四个问题**:请直接告诉我这篇论文发表在哪个会议或期刊,请不要推理或提供额外信息。 + +arXiv:1701.07232v1 + +**第五个问题**:请详细描述这篇论文主要解决的核心问题,并用简洁的语言概述。 + +论文要解决的核心问题是:如何在无需人工编写格式规范的前提下,从sample inputs自动学习出“足够像grammar”的生成式输入模型,用于grammar-based fuzzing复杂结构化输入(以PDF为代表),并进一步在“生成尽量well-formed以深入解析流程”和“刻意引入ill-formed片段以触达异常/错误处理代码”之间取得可控平衡。传统黑盒/白盒fuzz对复杂文本结构格式不如grammar-based有效,但后者依赖手工grammar;已有grammar/automata学习方法对PDF对象这种“相对扁平但token/键值组合极多”的格式并不理想。本文用seq2seq RNN学习字符序列的概率分布作为统计grammar,并利用该分布在高置信位置定点“反向扰动”以实现learn&fuzz。简洁概述:用神经网络从样本自动学输入结构,并用学到的概率分布指导更有效的结构化fuzz。 + +**第六个问题**:请告诉我这篇论文提出了哪些方法,请用最简洁的方式概括每个方法的核心思路。 + +(1) seq2seq RNN统计输入建模:把PDF object当作字符序列,训练encoder-decoder(LSTM)学习p(x_t|x_p_t)且掷币触发(p_fuzz>t_fuzz),则用分布中最低概率字符替换(argmin),在“最不该出错的位置”注入异常以诱导解析器走入错误处理/意外路径。 (7) PDF对象嵌入整文件的host-append机制:将新对象按PDF增量更新规则附加到well-formed host(更新xref与trailer)以便对Edge PDF parser进行端到端测试。 + +**第七个问题**:请告诉我这篇论文所使用的数据集,包括数据集的名称和来源。 + +(1) PDF训练语料:从534个PDF文件中抽取约63,000个non-binary PDF objects;这534个PDF由Windows fuzzing team提供,且是对更大PDF集合做seed minimization后的结果;更大集合来源包括公开Web与历史fuzz用PDF。(论文未给该数据集专有名称)(2) 目标程序/基准:Microsoft Edge browser内嵌的Edge PDF parser(通过Windows团队提供的单进程test-driver执行)。(3) Host PDF集合:从上述534个PDF中选取最小的3个作为host1/host2/host3(约26Kb/33Kb/16Kb)用于将生成对象附加成完整PDF。 + +**第八个问题**:请列举这篇论文评估方法的所有指标,并简要说明这些指标的作用。 + +(1) Coverage(instruction coverage):统计执行过的唯一指令集合(dll-name, dll-offset标识),集合并集衡量一组测试的覆盖范围,是fuzzing有效性的核心指标。 (2) Pass rate:通过grep解析日志中是否有parsing-error来判定pass/fail,pass表示被解析器视为well-formed;主要用来估计学习质量与“结构保持程度”。 (3) Bugs:在AppVerifier监控下捕获内存破坏类缺陷(如buffer overflow、异常递归导致的stack overflow等),衡量真实漏洞发现能力。 + +**第九个问题**:请总结这篇论文实验的表现,包含具体的数值表现和实验结论。 + +基线覆盖(host与baseline):三份host单独覆盖约353,327(host1)到457,464(host2)条唯一指令,三者并集host123为494,652;将1,000个真实对象附加到host后,baseline123覆盖为553,873,且所有host自身pass rate为100%。学习质量(pass rate):Sample在10 epochs时pass rate已>70%;SampleSpace整体更高,50 epochs最高达97% pass rate。覆盖表现(学习不加fuzz):不同host对覆盖影响明显;总体覆盖最佳为Sample-40e(host123场景下胜出),且Sample-40e的覆盖集合几乎是其他集合的超集(相对SampleSpace-40e仅缺1,680条指令)。学习+fuzz对比(30,000个PDF/组,图8):SampleFuzz覆盖567,634、pass rate 68.24%为最高覆盖;次优Sample+Random覆盖566,964、pass rate 41.81%;Sample-10K覆盖565,590、pass rate 78.92%;baseline+Random覆盖564,195、pass rate 44.05%;SampleSpace+Random覆盖563,930、pass rate 36.97%。结论:存在coverage与pass rate张力,随机fuzz提升覆盖但显著降低通过率;SampleFuzz在约65%–70%通过率附近取得更佳折中并带来最高覆盖。漏洞:常规实验未发现bug(目标已被长期fuzz);但更长实验(Sample+Random,100,000对象/300,000 PDF,约5天)发现并修复一个stack-overflow bug。 + +**第十个问题**:请清晰地描述论文所作的工作,分别列举出动机和贡献点以及主要创新之处。 + +动机:grammar-based fuzzing对复杂结构化输入最有效,但手工编写input grammar“劳累/耗时/易错”,限制了在真实大型解析器(如浏览器PDF解析)上的应用;同时学习生成“规范输入”与fuzzing“破坏结构找漏洞”目标冲突,需要可控融合。 + +贡献点:(1) 首次将neural-network-based statistical learning(seq2seq RNN/LSTM)用于从样本自动学习可生成的输入模型,以自动化grammar生成用于fuzzing。 (2) 针对PDF这种超复杂格式,明确限定范围为non-binary PDF objects,并给出端到端工程方案(把生成对象按PDF增量更新规则附加到host形成完整PDF)以真实驱动Edge PDF parser评测。 (3) 系统分析并量化learn&fuzz张力:用pass rate刻画学习质量、用instruction coverage刻画fuzz有效性,展示两者此消彼长。 (4) 提出SampleFuzz:利用learned input probability distribution在模型高置信位置用低概率字符替换,实现“智能选择where to fuzz”,在覆盖与通过率之间取得更优折中并获得最高覆盖。 + +主要创新:把“概率语言模型”的不确定性/置信度直接转化为fuzzing决策信号(高置信处注入反常),从而在保持足够结构可深入解析的同时,更系统地触达错误处理与意外路径。 \ No newline at end of file diff --git a/papers/md/Modeling Relational Data with Graph Convolutional Networks.md b/papers/md/Modeling Relational Data with Graph Convolutional Networks.md new file mode 100644 index 0000000..51cec1c --- /dev/null +++ b/papers/md/Modeling Relational Data with Graph Convolutional Networks.md @@ -0,0 +1,52 @@ +# Modeling Relational Data with Graph Convolutional Networks + + + +**第一个问题**:请对论文的内容进行摘要总结,包含研究背景与问题、研究目的、方法、主要结果和结论,字数要求在150-300字之间,使用论文中的术语和概念。 + +论文针对知识图谱(directed labeled multigraph)不完整导致下游应用受损的问题,聚焦两类SRL任务:link prediction(补全缺失三元组)与entity classification(补全实体属性/类型)。研究目的在于将GCN扩展到高度multi-relational数据,显式利用邻域结构进行多步信息传播。方法上提出Relational Graph Convolutional Networks(R-GCN),采用关系特定变换的消息聚合,并通过basis decomposition与block-diagonal decomposition进行参数共享/稀疏化正则;在link prediction中构建R-GCN encoder + DistMult decoder的图自编码框架。结果显示R-GCN在AIFB与AM实体分类达SOTA(95.83%、89.29%),并在FB15k-237上相对decoder-only DistMult带来29.8%的提升。结论是:显式建模relational neighborhoods的R-GCN对知识库补全与实体分类有效,尤其适用于更具挑战的数据集。 + +**第二个问题**:请提取论文的摘要原文,摘要一般在Abstract之后,Introduction之前。 + +Knowledge graphs enable a wide variety of applications, in-cluding question answering and information retrieval. De-spite the great effort invested in their creation and mainte-nance, even the largest (e.g., Yago, DBPedia or Wikidata)remain incomplete. We introduce Relational Graph Convo-lutional Networks (R-GCNs) and apply them to two standardknowledge base completion tasks: Link prediction (recoveryof missing facts, i.e. subject-predicate-object triples) and en-tity classification (recovery of missing entity attributes). R-GCNs are related to a recent class of neural networks operat-ing on graphs, and are developed specifically to deal with thehighly multi-relational data characteristic of realistic knowl-edge bases. We demonstrate the effectiveness of R-GCNs asa stand-alone model for entity classification. We further showthat factorization models for link prediction such as DistMultcan be significantly improved by enriching them with an en-coder model to accumulate evidence over multiple inferencesteps in the relational graph, demonstrating a large improve-ment of 29.8% on FB15k-237 over a decoder-only baseline. + +**第三个问题**:请列出论文的全部作者,按照此格式:`作者1, 作者2, 作者3`。 + +Michael Schlichtkrull, Thomas N. Kipf, Peter Bloem, Rianne van den Berg, Ivan Titov, Max Welling + +**第四个问题**:请直接告诉我这篇论文发表在哪个会议或期刊,请不要推理或提供额外信息。 + +arXiv(arXiv:1703.06103v4) + +**第五个问题**:请详细描述这篇论文主要解决的核心问题,并用简洁的语言概述。 + +核心问题是:如何在高度多关系(multi-relational)的知识图谱中,利用图结构邻域信息进行表示学习,从而更好地完成知识库补全任务(link prediction:预测缺失的(subject, relation, object)三元组)与实体分类任务(entity classification:预测缺失实体类型/属性),同时解决“关系类型多→参数量随|R|快速增长→易过拟合且难扩展”的工程与统计难题。简洁概述:把GCN扩展为能处理多关系有向标注多重图的R-GCN,并用可扩展的参数共享/稀疏化设计,让模型能在真实KG上通过多步信息传播提升补全与分类性能。 + +**第六个问题**:请告诉我这篇论文提出了哪些方法,请用最简洁的方式概括每个方法的核心思路。 + +1) R-GCN(Relational Graph Convolutional Network):在消息传递/邻域聚合中引入“按关系类型r区分的线性变换W_r”和self-loop项,通过堆叠多层实现多步relational传播。 +2) Basis decomposition(式3):把每个关系的W_r表示为若干共享basis矩阵V_b的线性组合,仅系数a_rb随关系变化,以参数共享抑制过拟合并降低参数量。 +3) Block-diagonal decomposition(式4):把W_r约束为块对角结构(若干小矩阵直和),用结构化稀疏减少参数与计算。 +4) 实体分类模型:R-GCN堆叠后接per-node softmax,优化cross-entropy(式5)。 +5) 链路预测自编码框架:R-GCN作为encoder产出实体表示e_i,DistMult作为decoder用对角关系矩阵R_r打分f(s,r,o)=e_s^T R_r e_o(式6),用negative sampling + logistic交叉熵训练(式7) +6) R-GCN+(集成):将训练好的R-GCN打分与单独训练的DistMult按权重α线性融合以互补。 + +**第七个问题**:请告诉我这篇论文所使用的数据集,包括数据集的名称和来源。 + +实体分类(RDF格式,来自Ristoski, de Vries, and Paulheim 2016的基准集合,论文给出下载链接dws.informatik.uni-mannheim.de):AIFB, MUTAG, BGS, AM。链路预测:WN18(WordNet子集),FB15k(Freebase子集),FB15k-237(Toutanova and Chen 2015基于FB15k去除inverse triplet pairs后的版本)。 + +**第八个问题**:请列举这篇论文评估方法的所有指标,并简要说明这些指标的作用。 + +实体分类指标:Accuracy——分类正确的比例,用于衡量实体类型/属性预测的整体正确率。链路预测指标:MRR(Mean Reciprocal Rank,分Raw与Filtered)——对每个查询的正确实体排名取倒数再求均值,越大表示越容易把真值排在前面;Raw不移除其他真实三元组干扰,Filtered会过滤掉“在KG中本就为真”的候选以更可靠。Hits@1 / Hits@3 / Hits@10(论文报告Filtered)——真值是否落在前1/3/10名的比例,衡量Top-K检索质量。 + +**第九个问题**:请总结这篇论文实验的表现,包含具体的数值表现和实验结论。 + +实体分类(Accuracy,Table 2,10次均值):AIFB上R-GCN 95.83(优于Feat 55.55、WL 80.55、RDF2Vec 88.88);MUTAG上R-GCN 73.23(低于Feat 77.94与WL 80.88,高于RDF2Vec 67.20);BGS上R-GCN 83.10(低于WL 86.20与RDF2Vec 87.24,高于Feat 72.41);AM上R-GCN 89.29(略高于RDF2Vec 88.33与WL 87.37)。链路预测:FB15k(Table 4)DistMult filtered MRR 0.634 vs R-GCN 0.651 vs R-GCN+ 0.696;WN18(Table 4)DistMult filtered MRR 0.813 vs R-GCN 0.814 vs R-GCN+ 0.819;FB15k-237(Table 5)DistMult filtered MRR 0.191 vs R-GCN 0.248(相对提升约29.8%),filtered Hits@10为0.376 vs 0.414。 + +实验结论:R-GCN作为entity classification端到端模型在部分数据集达SOTA;作为encoder与DistMult结合能在更“去捷径”的FB15k-237上显著优于纯因子分解decoder,证明多步邻域证据累积有效。 + +**第十个问题**:请清晰地描述论文所作的工作,分别列举出动机和贡献点以及主要创新之处。 + +动机:1) 真实知识图谱高度不完整,需通过link prediction与entity classification补全;2) 缺失信息往往蕴含在relational neighborhood结构中,需要可微的多步传播来聚合证据;3) 直接把GCN用于多关系KG会遇到“关系多→参数爆炸/稀疏关系过拟合”的可扩展性问题。 +贡献点:1) 提出R-GCN,将GCN/消息传递框架系统性扩展到directed labeled multigraph的多关系建模,并用于两大标准任务(实体分类、链路预测)。2) 提出两种面向大规模关系集合的参数约束/共享机制:basis decomposition与block-diagonal decomposition,使R-GCN可在多关系场景训练。3) 在link prediction中给出encoder-decoder(R-GCN + DistMult)图自编码范式,证明“在decoder因子分解前加入R-GCN encoder进行多步信息传播”可显著提升性能(FB15k-237上相对DistMult提升29.8%)。 +主要创新之处:将“关系类型特定的邻域变换 + 可扩展参数化(basis/块对角)+ 多步传播的encoder”组合为统一R-GCN框架,并在KG补全中以实证显示其相对纯因子分解的优势。 \ No newline at end of file diff --git a/papers/md/NEUZZ Efficient Fuzzing with Neural Program Smoothing.md b/papers/md/NEUZZ Efficient Fuzzing with Neural Program Smoothing.md new file mode 100644 index 0000000..ee79fc7 --- /dev/null +++ b/papers/md/NEUZZ Efficient Fuzzing with Neural Program Smoothing.md @@ -0,0 +1,60 @@ +# NEUZZ Efficient Fuzzing with Neural Program Smoothing + + + +**第一个问题**:请对论文的内容进行摘要总结,包含研究背景与问题、研究目的、方法、主要结果和结论,字数要求在150-300字之间,使用论文中的术语和概念。 + +论文指出传统graybox fuzzing多依赖evolutionary guidance,易陷入随机变异的低效序列,难以触发深层分支与hard-to-trigger bugs;而直接用gradient-guided optimization又会被真实程序的discontinuities、plateaus与ridges卡住。研究目的在于通过program smoothing构造可微的surrogate function,使梯度方法可用于覆盖导向fuzzing。方法上,NEUZZ用feed-forward NN学习输入到edge bitmap(分支/边覆盖)的平滑近似,采用binary cross-entropy训练并做label降维(合并总是共现的边);再基于∇x f_i(θ,x)选取top-k高梯度字节并按梯度符号生成变异,同时通过coverage-based filtration进行incremental learning以避免遗忘。主要结果:在10个真实程序上,NEUZZ在24小时内相对10个SOTA fuzzers达到最高edge coverage(最高达3×,文中亦报告对AFL最高约10×);发现31个此前未知bug(含2个CVE),并在LAVA-M与DARPA CGC上分别找到更多注入/真实漏洞。结论是:神经网络程序平滑+梯度引导变异能显著提升fuzz效率与覆盖,并具备良好可扩展性。 + +**第二个问题**:请提取论文的摘要原文,摘要一般在Abstract之后,Introduction之前。 + +Abstract—Fuzzing has become the de facto standard technique for finding software vulnerabilities. However, even state-of-the-art fuzzers are not very efficient at finding hard-to-trigger software bugs. Most popular fuzzers use evolutionary guidance to generate inputs that can trigger different bugs. Such evolutionary algorithms, while fast and simple to implement, often get stuck in fruitless sequences of random mutations. Gradient-guided optimization presents a promising alternative to evolutionary guidance. Gradient-guided techniques have been shown to significantly outperform evolutionary algorithms at solving high-dimensional structured optimization problems in domains like machine learning by efficiently utilizing gradients or higher-order derivatives of the underlying function. However,gradient-guidedapproachesarenotdirectly applicable to fuzzing as real-world program behaviors contain many discontinuities, plateaus, and ridges where the gradient-based methods often get stuck. We observe that this problem can be addressed by creating a smooth surrogate function approximating the target program’s discrete branching behavior. In this paper, we propose a novel program smoothing technique using surrogate neural network models that can incrementally learn smooth approximations of a complex, real-world program’s branching behaviors. We further demonstrate that such neural network models can be used together with gradient-guided input generation schemes to significantly increase the efficiency of the fuzzing process. OurextensiveevaluationsdemonstratethatNEUZZ significantly outperforms 10 state-of-the-art graybox fuzzers on 10 popular real-world programs both at finding new bugs and achieving higher edge coverage. NEUZZ found 31 previously unknown bugs (including two CVEs) that other fuzzers failed to find in 10 real-world programs and achieved 3X more edge coverage than all of the tested graybox fuzzers over 24 hour runs. Furthermore, NEUZZ also outperformed existing fuzzers on both LAVA-M and DARPA CGC bug datasets. + +**第三个问题**:请列出论文的全部作者,按照此格式:`作者1, 作者2, 作者3`。 + +Dongdong She, Kexin Pei, Dave Epstein, Junfeng Yang, Baishakhi Ray, Suman Jana + +**第四个问题**:请直接告诉我这篇论文发表在哪个会议或期刊,请不要推理或提供额外信息。 + +arXiv:1807.05620v4 + +**第五个问题**:请详细描述这篇论文主要解决的核心问题,并用简洁的语言概述。 + +核心问题是:覆盖导向fuzzing本质是优化问题(最大化new edge coverage/bugs),但真实程序的分支行为对输入是高度离散且不光滑的目标函数,导致两类主流方法各有瓶颈:evolutionary algorithms无法利用梯度结构而易低效停滞;gradient-guided optimization虽高效,但在程序的discontinuities、plateaus、ridges处梯度不可用/不可靠而“卡住”。NEUZZ要解决的就是“如何在不引入符号执行等高开销白盒平滑的前提下,把程序分支行为变成可微、可求梯度的近似函数,并让梯度真正能指导变异去触达未覆盖边与隐藏漏洞”。简洁概述:用可微的神经网络代理模型平滑程序分支,使梯度引导变异在真实程序上可用且更高效。 + +**第六个问题**:请告诉我这篇论文提出了哪些方法,请用最简洁的方式概括每个方法的核心思路。 + +(1) Neural program smoothing:训练feed-forward surrogate NN,把输入字节序列映射为edge bitmap的“平滑近似”,从而可微、可求梯度。 + (2) Edge-label降维预处理:仅保留训练集中出现过的边,并合并“总是共现”的边以缓解multicollinearity,减少输出维度(约从65,536降到~4,000)。 + (3) Gradient-guided mutation(Algorithm 1):对选定的输出边神经元计算∇x f_i(θ,x),选top-k高梯度字节作为critical bytes,按梯度符号对字节做增/减并clip到[0,255]生成定向变异。 + (4) Exponentially grow mutation target:从少量字节开始,逐轮扩大要变异的字节数,以覆盖更大输入空间同时保持单次搜索有效性。 + (5) Incremental learning + coverage-based filtration:把新发现(触发新边)的输入加入,并用“只保留能带来新覆盖的旧数据摘要”控制数据规模,迭代重训以提高代理模型精度并避免灾难性遗忘。 + (6) Magic-check辅助(LAVA/CGC场景):用定制LLVM pass插桩magic byte checks;用NN梯度先定位关键字节,再对相邻字节做局部穷举(4×256)以高效触发多字节条件。 + +**第七个问题**:请告诉我这篇论文所使用的数据集,包括数据集的名称和来源。 + +(1) 10个真实世界程序集:binutils-2.30(readelf -a, nm -C, objdump -D, size, strip)、harfbuzz-1.7.6、libjpeg-9c、mupdf-1.12.0、libxml2-2.9.7、zlib-1.2.11(论文表IIb列出;来源为对应开源项目/版本)。 + (2) LAVA-M bug dataset:LAVA项目的子集(base64、md5sum、uniq、who,含注入的magic-number触发漏洞;来源引用[28] LAVA)。 + (3) DARPA CGC dataset:Cyber Grand Challenge二进制/服务程序数据集(论文从中随机选50个binary评测;来源引用[26] CGC repository)。 + (4) 训练数据来源:先运行AFL-2.52b 1小时生成初始seed corpus与边覆盖标签,用于训练NN(平均每个程序约2K训练输入)。 + +**第八个问题**:请列举这篇论文评估方法的所有指标,并简要说明这些指标的作用。 + +(1) Bugs found / crashes:统计发现的真实漏洞与崩溃数量,用于衡量漏洞挖掘能力;内存类问题通过AddressSanitizer的stack trace去重,整数溢出通过人工分析+UBSan验证。 + (2) Edge coverage(new control-flow edges):以AFL的edge coverage report统计“新增边数”,作为覆盖导向fuzzing的核心效果指标。 + (3) 运行时间预算下的覆盖增长曲线:比较24h(真实程序)、5h(LAVA-M)、6h(CGC)内覆盖随时间变化,体现“到达新边的速度”。 + (4) 训练开销/时间(NEUZZ train(s), training time sec):衡量学习组件的成本(如与RNN fuzzer对比时报告训练时间差异)。 + (5) 固定变异预算下的覆盖(如1M mutations):在控制变异次数时比较不同方法/模型的有效性,排除训练时长差异干扰。 + (6) NN预测精度(test accuracy约95%平均):用于说明代理模型对分支行为预测质量(间接影响梯度指导有效性)。 + +**第九个问题**:请总结这篇论文实验的表现,包含具体的数值表现和实验结论。 + +真实程序(24h):NEUZZ在10个程序上均取得最高edge coverage(表VI示例:readelf -a 4,942;harfbuzz 6,081;nm -C 2,056;libxml 1,596;mupdf 487;zlib 376等),并在多程序上呈现“1小时内新增>1,000边”的领先速度;文中总结对AFL在9/10程序上分别约6×、1.5×、9×、1.8×、3.7×、1.9×、10×、1.3×、3×的边覆盖优势,并称相对次优fuzzer可达约4.2×、1.3×、7×、1.2×、2.5×等提升。真实漏洞(表III):在6个fuzzer对比中NEUZZ总计发现60个bug(AFL 29,AFLFast 27,VUzzer 14,KleeFL 26,AFL-laf-intel 60?——表中按项目/类型给出,且NEUZZ覆盖5类bug并额外拿到2个CVE:CVE-2018-19931/19932)。LAVA-M(5h):NEUZZ在base64找到48、md5sum 60、uniq 29、who 1,582(表IV),整体优于Angora等对比项。CGC(6h,50 binaries):NEUZZ触发31个有漏洞binary,AFL为21、Driller为25,且NEUZZ覆盖了AFL/Driller找到的全部并额外多6个(表V)。与RNN fuzzer对比(1M mutations,表VII):NEUZZ在readelf/libjpeg/libxml/mupdf上分别获得约8.4×/4.2×/6.7×/3.7×更多边覆盖,且训练开销约低20×。模型消融(表VIII):线性模型显著落后;增量学习进一步提升(如readelf -a:1,723→1,800→2,020)。结论:神经平滑+梯度定向变异在覆盖与找bug上均显著优于多种SOTA,且训练/执行开销可控、可扩展到大程序。 + +**第十个问题**:请清晰地描述论文所作的工作,分别列举出动机和贡献点以及主要创新之处。 + +动机:evolutionary fuzzing在深层逻辑与稀疏漏洞上效率低;梯度优化在高维结构化问题上更强,但直接用于程序会被分支离散性导致的不可微/不连续行为阻断;既有program smoothing依赖符号执行/抽象解释,开销大且不可扩展。 + +贡献点:(1) 提出“program smoothing对gradient-guided fuzzing至关重要”的核心观点,并把fuzzing形式化为优化问题,明确为何需要平滑代理。 (2) 设计首个可扩展的surrogate neural network program smoothing:用feed-forward NN学习输入→edge coverage bitmap的平滑近似,并通过标签降维解决训练可行性。 (3) 提出面向覆盖的gradient-guided mutation策略:利用∇x f_i(θ,x)定位critical bytes与变异方向,系统生成高价值变异而非均匀随机。 (4) 提出coverage-based filtration的incremental learning流程,持续用新覆盖数据纠正代理模型且避免灾难性遗忘。 (5) 实现NEUZZ并在真实程序、LAVA-M、CGC上进行大规模对比,证明在bug数量与edge coverage上显著超越10个SOTA fuzzers。 + +主要创新之处:用“可微代理模型”把离散分支行为平滑为可求梯度的函数,再把梯度直接转化为变异位置/方向的决策信号,从而以低开销获得比符号/污点等重分析更强的探索能力。 \ No newline at end of file diff --git a/papers/md/Practical GAN-based synthetic IP header trace generation using NetShare.md b/papers/md/Practical GAN-based synthetic IP header trace generation using NetShare.md new file mode 100644 index 0000000..5e0a1f3 --- /dev/null +++ b/papers/md/Practical GAN-based synthetic IP header trace generation using NetShare.md @@ -0,0 +1,48 @@ +# Practical GAN-based synthetic IP header trace generation using NetShare + + + +**第一个问题**:请对论文的内容进行摘要总结,包含研究背景与问题、研究目的、方法、主要结果和结论,字数要求在150-300字之间,使用论文中的术语和概念。 + +论文针对网络管理与安全中的包/流头部数据难以共享的问题,探索用GAN生成合成IP头部踪迹以替代真实PCAP/NetFlow数据。作者识别出fidelity、scalability-fidelity与privacy-fidelity三大挑战:现有表格/时间序列GAN难以捕捉字段相关性与大取值空间、训练成本高、差分隐私训练破坏保真度。为此提出端到端框架NetShare:将跨epoch的头部轨迹重构为merged flow-level time series,并用DoppelGANger类时序GAN生成;结合域知识进行字段编码(log(1+x)、IP位编码、端口/协议IP2Vec嵌入)以提升可学性;通过chunk并行+seed fine-tuning与“flow tags”保留跨块相关性;引入DP-SGD并用相近公共数据预训练改善privacy-fidelity。基于6个异质数据集(UGR16、CIDDS、TON,CAIDA、数据中心、网络攻防PCAP),结果显示:在分布指标上NetShare较基线平均提升46%,在下游任务保持accuracy与rank ordering;相较基线实现更优scalability-fidelity,并在差分隐私设定下优于naive DP。结论:NetShare将域洞察与ML结合,实用地生成高保真、可扩展且具更好隐私折中的合成头部踪迹。 + +**第二个问题**:请提取论文的摘要原文,摘要一般在Abstract之后,Introduction之前。 + +We explore the feasibility of using Generative Adversarial Networks (GANs) to automatically learn generative models to generate synthetic packet- and flow header traces for networking tasks (e.g., telemetry, anomaly detection, provisioning). We identify key fidelity, scalability, and privacy challenges and tradeoffs in existing GAN-based approaches. By synthesizing domain-specific insights with recent advances in machine learning and privacy, we identify design choices to tackle these challenges. Building on these insights, we develop an end-to-end framework, NetShare. We evaluate NetShare on six diverse packet header traces and find that: (1) across all distributional metrics and traces, it achieves 46% more accuracy than baselines and (2) it meets users’ requirements of downstream tasks in evaluating accuracy and rank ordering of candidate approaches. + +**第三个问题**:请列出论文的全部作者,按照此格式:`作者1, 作者2, 作者3`。 + +Yucheng Yin, Zinan Lin, Minhao Jin, Giulia Fanti, Vyas Sekar + +**第四个问题**:请直接告诉我这篇论文发表在哪个会议或期刊,请不要推理或提供额外信息。 + +ACM SIGCOMM 2022 + +**第五个问题**:请详细描述这篇论文主要解决的核心问题,并用简洁的语言概述。 + +核心问题是如何用GAN生成高保真、可扩展、具隐私保障的PCAP/NetFlow合成头部踪迹,使其在字段分布、跨包/跨epoch相关性、下游任务准确性与排序上接近真实数据,同时缓解训练成本与差分隐私带来的保真损失。简述:将头部生成重构为flow-level时序问题,配合域感知编码与并行微调,联用公共数据预训练+DP-SGD,实现高保真且更实用的隐私合成。 + +**第六个问题**:请告诉我这篇论文提出了哪些方法,请用最简洁的方式概括每个方法的核心思路。 + +(1) 问题重构:merge多epoch为巨型trace,按五元组拆分flow,用时序GAN学习跨包/跨epoch相关性。 (2) 域感知编码:连续大范围字段用log(1+x);IP用bit编码;端口/协议用IP2Vec嵌入(在公共数据上训练),提升可学性与隐私。 (3) 可扩展训练:将trace按固定时间切分为chunks;首块训练seed模型,其余并行fine-tuning;用“flow tags”保留跨块出现关系。 (4) 隐私增强:DP-SGD微调并结合公共数据预训练(相似域),改善privacy-fidelity折中。 (5) 合规后处理:最近邻反映射嵌入、补派生字段(如校验和)、按原始时间字段合并为PCAP/NetFlow。 + + +**第七个问题**:请告诉我这篇论文所使用的数据集,包括数据集的名称和来源。 + +(1) UGR16(NetFlow v9,西班牙ISP,2016年3月第三周);(2) CIDDS(仿真小型企业环境,有标签的Benign/Attack与类型);(3) TON_IoT(IoT遥测子数据集,含9类攻击与正常流);(4) CAIDA(骨干链路PCAP,2018年3月纽约采集器;公共数据);(5) Data Center(IMC 2010研究的数据中心UNI1 PCAP);(6) CyberAttack(美国网络攻防竞赛PCAP,2012年3月)。每数据集选取连续100万样本用于评测。 + +**第八个问题**:请列举这篇论文评估方法的所有指标,并简要说明这些指标的作用。 + +(1) 分布一致性:对SA/DA、SP/DP、PR用Jensen-Shannon Divergence;对TS、TD、PKT、BYT、PS、PAT、FS用Earth Mover’s Distance(归一化)。衡量合成与真实分布的距离。 (2) 下游任务保真:accuracy preservation与order preservation,用真实/合成训练-测试的准确率与Spearman秩相关评估分类器与测量算法的排序一致性。 (3) Sketch重估误差:重估heavy hitter计数的相对误差,评估合成数据在网络测量中的可用性。 (4) 异常检测保真:NetML多模式(IAT、SIZE、IAT_SIZE、STATS、SAMP-NUMP、SAMP-SIZE)下的异常比例相对误差及秩相关。 (5) 可扩展性-保真折中:训练CPU小时 vs 平均JSD/EMD,衡量效率与质量。 (6) 隐私-保真折中:差分隐私参数(ε, δ) vs 平均JSD/EMD,评估DP训练影响。 (7) 协议/域知识一致性测试:IP有效性、字节-包关系、端口-协议一致性、最小包长等,确保语义/语法正确性。 + +**第九个问题**:请总结这篇论文实验的表现,包含具体的数值表现和实验结论。 + +在6个数据集上,NetShare在分布指标相较基线平均提升46%(NetFlow约48%,PCAP约41%);在UGR16与CAIDA示例中,NetShare的平均JSD/归一化EMD显著低于CTGAN、E-WGAN-GP、STAN及PCAP基线。下游任务方面:在TON流分类,NetShare在MLP上比次优基线高12%准确率,达到真实数据性能的84%,并在CIDDS/TON上获得更高秩相关(如CIDDS 0.90);在Sketch重估,3个数据集上NetShare相对误差最低(平均减少约48%),并保持算法排序;在PCAP异常检测,NetShare多数模式相对误差最低,且在CAIDA上模式排名完全匹配。可扩展性方面,NetShare通过并行微调与chunking达成较优CPU小时-保真折中,PCAP场景相对CTGAN提升近一数量级的JSD,同时较DoppelGANger近一数量级更快。隐私方面,naive DP-SGD显著劣化保真度;用相似公共数据预训练后在ε≈24的CAIDA上将平均EMD相对naive DP从3.5×降至2.3×,但仍存在折中。协议一致性测试中,NetShare在多项测试达到≈95–99%通过率。结论:NetShare在保真、任务可用性与训练效率上优于现有方法,并以预训练提升DP情形的可用性。 + +**第十个问题**:请清晰地描述论文所作的工作,分别列举出动机和贡献点以及主要创新之处。 + +动机:现实PCAP/NetFlow头部踪迹因隐私/政策难共享,现有模拟/模型/ML方法在字段相关性、大取值空间、跨epoch相关与隐私保障上存在不足,且训练成本高、差分隐私显著破坏保真。 + +贡献点:(1) 提出NetShare,重构为flow-level时序生成并实现端到端系统与Web原型;(2) 域感知编码策略(log变换、IP位编码、端口/协议IP2Vec公共预训练)提升GAN对网络字段的可学性与鲁棒性;(3) 并行可扩展训练(chunk+seed fine-tuning+flow tags)在保持相关性的同时显著降低CPU小时;(4) 差分隐私微调框架(公共数据预训练+DP-SGD)改善privacy-fidelity折中;(5) 系统性评测:在6数据集与多类分布/任务/一致性指标上验证较基线平均46%保真提升与排序保持。 + +主要创新:将跨epoch合并与按五元组时序化的生成范式用于网络头部踪迹;将端口/协议嵌入与IP位编码的混合表示用于兼顾保真与隐私;提出带flow tags的并行微调保持跨块相关;首次在网络头部生成中实证差分隐私预训练微调提升隐私-保真折中。 \ No newline at end of file diff --git a/papers/md/Practical GAN-based synthetic IP header trace generation using.md b/papers/md/Practical GAN-based synthetic IP header trace generation using.md new file mode 100644 index 0000000..60861ca --- /dev/null +++ b/papers/md/Practical GAN-based synthetic IP header trace generation using.md @@ -0,0 +1,45 @@ +# Practical GAN-based synthetic IP header trace generation using + + + +**第一个问题**:请对论文的内容进行摘要总结,包含研究背景与问题、研究目的、方法、主要结果和结论,字数要求在150-300字之间,使用论文中的术语和概念。 + +论文面向网络管理任务(telemetry、anomaly detection、provisioning)中难以共享的packet/flow header traces,指出现有GAN/表格生成与时序生成方法在fidelity(字段相关性与大支持域字段)、scalability-fidelity tradeoff、privacy-fidelity tradeoff上不足。目标是自动学习可生成synthetic IP header traces的端到端框架。方法NetShare将多epoch traces合并并按five-tuple拆分为flow time series,用DoppelGANger式time-series GAN建模;对大范围数值做log(1+x),IP用bit encoding,端口/协议用基于public data训练的IP2Vec;通过chunk化+fine-tuning并行训练提升效率,并用public pretraining+DP-SGD改善DP训练。结果显示NetShare在六个数据集上跨分布指标总体比基线高46%准确度,并在下游任务上保持accuracy与rank ordering,结论是GAN在该场景可行但需域特定重构与隐私/效率设计。 + +**第二个问题**:请提取论文的摘要原文,摘要一般在Abstract之后,Introduction之前。 + +We explore the feasibility of using Generative Adversarial Networks (GANs) to automatically learn generative models to generate synthetic packet- and flow header traces for networking tasks (e.g., telemetry, anomaly detection, provisioning). We identify key fidelity, scalability, and privacy challenges and tradeoffs in existing GAN-based approaches. By synthesizing domain-specific insights with recent advances in machine learning and privacy, we identify design choices to tackle these challenges. Building on these insights, we develop an end-to-end framework, NetShare. We evaluate NetShare on six diverse packet header traces and find that: (1) across all distributional metrics and traces, it achieves 46% more accuracy than baselines and (2) it meets users’ requirements of downstream tasks in evaluating accuracy and rank ordering of candidate approaches. + +**第三个问题**:请列出论文的全部作者,按照此格式:`作者1, 作者2, 作者3`。 + +Yucheng Yin, Zinan Lin, Minhao Jin, Giulia Fanti, Vyas Sekar + +**第四个问题**:请直接告诉我这篇论文发表在哪个会议或期刊,请不要推理或提供额外信息。 + +ACM SIGCOMM 2022 Conference (SIGCOMM ’22) + +**第五个问题**:请详细描述这篇论文主要解决的核心问题,并用简洁的语言概述。 + +核心问题是:如何在不共享原始数据的前提下,生成对网络任务“足够真实且可用”的synthetic packet/flow IP header traces,同时兼顾三类现实约束——(1) Fidelity:要捕获跨字段与跨记录的相关性(如flow size、跨epoch的同一flow、多包流),并能学习大支持域字段(IP/port、pkts/bytes等)的长尾与heavy hitters;(2) Scalability:面对百万级记录的trace训练成本要可控,避免复杂时序GAN训练耗费数量级更多CPU/GPU-hours;(3) Privacy:在考虑差分隐私(ε,δ)-DP等机制时,避免“DP一上、保真度崩溃”的privacy-fidelity tradeoff。简洁概述:NetShare要把“能用、能训、能隐私化”的网络头部合成数据生成从不可行变为可落地。 + +**第六个问题**:请告诉我这篇论文提出了哪些方法,请用最简洁的方式概括每个方法的核心思路。 + +(1) Reformulation as flow time series generation:把按epoch的表格记录改写为“合并全局trace→按five-tuple切成flows→对每条flow生成时间序列”,以显式学习跨包/跨epoch相关性;(2) Field representation/encoding设计:对pkts/bytes等大范围数值做log(1+x);IP用bitwise encoding;port/protocol用在public data上训练的IP2Vec embedding以兼顾可学性与DP可行性;(3) Scalability via chunking + fine tuning + parallelism:将flow trace按固定时间切成M个chunk,首chunk训练seed model,其余chunk并行fine-tune,并用flow tags保留跨chunk依赖;(4) Practical DP via public pretraining + DP-SGD fine-tuning:先用相近public traces预训练,再用DP-SGD在private data上微调以减少DP-SGD轮数,从而改善privacy-fidelity tradeoff;(5) Post-processing correctness:生成后回映射字段、补齐派生字段(如checksum)并重组为PCAP/NetFlow以保证trace可用与协议一致性。 + + +**第七个问题**:请告诉我这篇论文所使用的数据集,包括数据集的名称和来源。 + +Flow(NetFlow)数据集:(1) UGR16:西班牙ISP的NetFlow v9采集数据(论文使用2016年3月第三周);(2) CIDDS:模拟小型企业环境并注入恶意流量的流量数据集(带benign/attack与attack type标签);(3) TON_IoT (TON):物联网遥测/安全数据集(论文使用Train_Test_datasets子集)。Packet(PCAP)数据集:(4) CAIDA Anonymized Internet Traces:商业骨干链路高速度监测点的匿名化PCAP(论文用2018年3月New York collector子集);(5) Data Center (DC):IMC 2010论文中“UNI1”数据中心的抓包数据;(6) CyberAttack (CA):U.S. National CyberWatch Mid-Atlantic CCDC 2012年3月比赛抓包数据(Netresec公开capture files)。另外,用于隐私/编码预训练的public数据:CAIDA Chicago collector 2015(用于IP2Vec端口/协议embedding与DP预训练示例)。 + +**第八个问题**:请列举这篇论文评估方法的所有指标,并简要说明这些指标的作用。 + +(1) Jensen–Shannon Divergence (JSD):衡量合成与真实在categorical字段分布的差异(如SA/DA、SP/DP、PR),越小越好;(2) Earth Mover’s Distance (EMD / Wasserstein-1):衡量continuous字段分布差异(如TS、TD、PKT、BYT、PS、PAT、FS),越小越好;(3) Normalized EMD:为跨字段可比性将EMD按字段归一化到固定区间用于汇总/展示;(4) Downstream task accuracy:如traffic type prediction各分类器准确率,用于检验“训练在合成、测试在真实”的可用性;(5) Order preservation / Spearman’s rank correlation coefficient:比较算法/模型在真实与合成上的相对排序一致性(分类器、sketch、NetML modes),越接近1越好;(6) Heavy hitter count estimation relative error:|error_syn−error_real|/error_real,检验sketch类遥测任务误差是否被合成数据保持;(7) Anomaly ratio relative error:|ratio_syn−ratio_real|/ratio_real,检验异常检测输出比例一致性;(8) Scalability:训练成本以total CPU hours度量,用于比较scalability-fidelity tradeoff;(9) Differential privacy参数(ε,δ):隐私强度指标(δ固定10^-5),用于privacy-fidelity tradeoff曲线;(10) Protocol/domain correctness checks:如IP地址合法性、pkt/byt与协议约束、port与protocol一致性、最小包长等,用于验证生成trace语义/语法正确性。 + +**第九个问题**:请总结这篇论文实验的表现,包含具体的数值表现和实验结论。 + +(1) 总体保真度:在六个header traces上,NetShare“across all distributional metrics and traces”相对基线达到46% more accuracy;文中进一步给出总体汇总:NetShare在NetFlow分布指标上平均48%更好、在PCAP分布指标上平均41%更好(以JSD/normalized EMD衡量)。(2) 下游任务:TON数据集的traffic type prediction中,NetShare在五种分类器上均优于CTGAN/STAN/E-WGAN-GP;例如MLP上比次优基线(E-WGAN-GP)准确率高12%,并达到真实数据准确率的84%。排序保持方面,Spearman相关系数:CIDDS上NetShare为0.90(基线0.60/0.60/0.70),TON上NetShare为0.70(基线0.10/0.60/-0.60)。(3) Sketch遥测:重流计数任务的相对误差上,NetShare相对基线平均48%更小,并实现sketch算法排序的perfect match(文中描述)。(4) 异常检测:NetML modes排序相关系数在CAIDA上NetShare=1.00,DC上0.94,CA上0.88,整体优于基线。(5) 隐私:在(ε,δ)-DP下,public pretraining能显著优于naive DP-SGD;但即使在CAIDA上ε=24.24,DP-pretrain-SAME的mean EMD仍比非DP退化约2.3×(naive约3.5×),结论是高维DP合成仍是开放难题。 + +**第十个问题**:请清晰地描述论文所作的工作,分别列举出动机和贡献点以及主要创新之处。 + +动机:(1) 真实packet/flow header traces对监控算法评估、异常检测、容量规划等至关重要,但受业务与隐私限制难以共享;(2) 传统simulation/model-driven方法依赖大量领域知识且难泛化,既有ML/GAN方法又在相关性、规模与隐私上不可用。 +贡献点与主要创新:(1) 提出并实现端到端系统NetShare,把header trace合成从“按epoch表格生成”重构为“全局合并+按flow切分的time-series GAN生成”,系统性解决flow size/跨epoch相关性缺失;(2) 给出面向fidelity–scalability–privacy的字段表示设计(log变换、IP比特编码、端口/协议基于public数据的IP2Vec),并解释为何某些embedding会破坏DP(训练数据依赖的dictionary问题);(3) 提出chunk化并行训练+seed模型fine-tuning与flow tags以改善scalability-fidelity tradeoff;(4) 将“public pretraining + DP-SGD fine-tuning”引入header trace生成,实证改善privacy-fidelity tradeoff,并量化其局限;(5) 用六个公开数据集、分布指标+多类下游任务(分类、sketch遥测、异常检测)进行系统评估,展示在准确率与排序保持上的实用性,并补充协议一致性检查与可用的PCAP/NetFlow输出流程(含派生字段生成)。 \ No newline at end of file diff --git a/papers/md/PriSTI A Conditional Diffusion Framework for Spatiotemporal .md b/papers/md/PriSTI A Conditional Diffusion Framework for Spatiotemporal .md new file mode 100644 index 0000000..320859c --- /dev/null +++ b/papers/md/PriSTI A Conditional Diffusion Framework for Spatiotemporal .md @@ -0,0 +1,47 @@ +# PriSTI A Conditional Diffusion Framework for Spatiotemporal + + + +**第一个问题**:请对论文的内容进行摘要总结,包含研究背景与问题、研究目的、方法、主要结果和结论,字数要求在150-300字之间,使用论文中的术语和概念。 + +论文面向真实场景的spatiotemporal data不完整问题(sensor failures、transmission loss),研究spatiotemporal imputation以利用spatiotemporal dependence补全缺失值。既有RNN式autoregressive插补易出现error accumulation且多为确定性输出;扩散模型可从Gaussian noise生成并避免串行误差,但在ST数据上“conditional information的构造与利用”困难。为此提出PriSTI:先对观测做linear interpolation得到增强的conditional information X,并用Conditional Feature Extraction提取含temporal attention、spatial attention与MPNN(结合geographic adjacency A)的global context prior H_pri;再在Noise Estimation Module中用H_pri计算注意力权重(Q,K来自H_pri,V来自含噪输入),引导εθ(Ẋ_t,X,A,t)去噪。实验在AQI-36、METR-LA、PEMS-BAY多缺失模式下,PriSTI在MAE/MSE/CRPS上均优于CSDI、GRIN等,并在高缺失率与sensor failure场景保持优势;结论是“先验增强的条件特征+地理关系”能显著提升扩散式时空插补质量与稳健性。 + +**第二个问题**:请提取论文的摘要原文,摘要一般在Abstract之后,Introduction之前。 + +Abstract—Spatiotemporal data mining plays an important role in air quality monitoring, crowd flow modeling, and climate forecasting. However, the originally collected spatiotemporal data in real-world scenarios is usually incomplete due to sensor failures or transmission loss. Spatiotemporal imputation aims to fill the missing values according to the observed values and the underlying spatiotemporal dependence of them. The previous dominant models impute missing values autoregressively and suffer from the problem of error accumulation. As emerging powerful generative models, the diffusion probabilistic models can be adopted to impute missing values conditioned by observations and avoid inferring missing values from inaccurate historical imputation. However, the construction and utilization of conditional information are inevitable challenges when applying diffusion models to spatiotemporal imputation. To address above issues, we propose a conditional diffusion framework for spatiotemporal imputation with enhanced prior modeling, named PriSTI. Our proposed framework provides a conditional feature extraction module first to extract the coarse yet effective spatiotemporal dependencies from conditional information as the global context prior. Then, a noise estimation module transforms random noise to realistic values, with the spatiotemporal attention weights calculated by the conditional feature, as well as the consideration of geographic relationships. PriSTI outperforms existing imputation methods in various missing patterns of different real-world spatiotemporal data, and effectively handles scenarios such as high missing rates and sensor failure. The implementation code is available at https://github.com/LMZZML/PriSTI. + +**第三个问题**:请列出论文的全部作者,按照此格式:`作者1, 作者2, 作者3`。 + +Mingzhe Liu, Han Huang, Hao Feng, Leilei Sun, Bowen Du, Yanjie Fu + +**第四个问题**:请直接告诉我这篇论文发表在哪个会议或期刊,请不要推理或提供额外信息。 + +未在提供的论文内容中给出具体会议或期刊名称。 + +**第五个问题**:请详细描述这篇论文主要解决的核心问题,并用简洁的语言概述。 + +核心问题是:将conditional diffusion model用于spatiotemporal imputation时,如何“构造并利用”条件信息,使模型既能避免RNN自回归插补的error accumulation,又能有效学习复杂的时空依赖(temporal dependencies、spatial global correlations、geographic relationships A)。论文指出CSDI类方法常把observed values与noisy targets直接拼接输入,仅靠mask区分,导致序列趋势在高噪声步t≈T时不一致、增加学习难度,且未充分利用地理邻接与跨节点相关。PriSTI通过“先插值增强条件信息→提取全局先验H_pri→用H_pri主导注意力权重、减少噪声对依赖学习的干扰”来解决。简洁概述:解决扩散式时空插补中“条件信息噪声大、时空依赖难学、地理关系难融入”的关键瓶颈。 + +**第六个问题**:请告诉我这篇论文提出了哪些方法,请用最简洁的方式概括每个方法的核心思路。 + +(1) PriSTI条件扩散插补框架:把缺失部分作为生成目标,反向扩散pθ(Ẋ_{t-1}|Ẋ_t,X,A,t)从噪声逐步生成缺失值。(2) 线性插值增强条件信息(Interpolate):对每个节点时间序列做linear interpolation得到更完整、趋势一致的条件输入X。(3) Conditional Feature Extraction Module(γ):在仅含插值信息H=Conv(X)上,用temporal attention + spatial attention + MPNN(A)提取global context prior H_pri。(4) Noise Estimation Module:对混合输入H_in=Conv(X||Ẋ_t)学习时空依赖,但用H_pri计算注意力权重(Q,K来自H_pri,V来自H_in或H_tem)以减轻噪声干扰,并结合MPNN与空间注意力。(5) 空间注意力降复杂度:将N个节点映射到k个virtual nodes(k