Update README.md

Update .gitignore
Merge branch 'master' of https://gitea.markyan04.cn/ModuFlow/internal-docs
2026-03-24 16:25:21 +08:00 · 2026-02-04 18:17:11 +08:00 · 2026-02-03 22:58:43 +08:00 · 2026-02-03 22:58:33 +08:00
6 changed files with 279 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@@ -0,0 +1,2 @@
 papers/Topic8 Network Traffic Generation/NetDiffusion Network Data Augmentation Through Protocol-Constrained Traffic Generation/NetDiffusion Network Data Augmentation Through Protocol-Constrained Traffic Gener_1_33_translate_20260130214700.pdf
 .DS_Store
--- a/README.md
+++ b/README.md
@@ -10,3 +10,5 @@ Currently, there are 4 parts of docs:
 - **papers**: contains useful papers we've found in pdf
 Here is the Feishu Docs link: https://my.feishu.cn/wiki/Za4dwCsG6iPD9qklRLWcoJOZnnb?from=from_copylink
 This is a test.
--- a/papers/md/A
+++ b/papers/md/A
@@ -0,0 +1,56 @@
 # Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forecasting
 **第一个问题**：请对论文的内容进行摘要总结，包含研究背景与问题、研究目的、方法、主要结果和结论，字数要求在150-300字之间，使用论文中的术语和概念。
 摘要总结：SCADA系统随互联网集成暴露于大量网络攻击，但现有研究缺乏用于评估安全方案有效性的自动化恶意流量生成工具。本文提出面向Modbus/TCP的恶意流量生成器，目标是从Snort NIDS规则自动提取特征并用Scapy生成对应的Modbus数据包，以在测试环境评估安全方案。方法包括解析Snort规则头与选项（content、offset），构造并修改MBAP与Modbus PDU/ADU头部与负载，封装为TCP/IP数据包并建立会话发送；提供详细算法与实验测试床（发送端/接收端/Snort NIDS与镜像端口）。主要结果显示该工具成功生成能触发指定Snort规则的恶意流量，Wireshark验证了字段值（如第9字节0x09），Snort记录与规则sid/msg一致。结论：该工具为SCADA安全评估提供可复现实验流量来源，并可扩展至其他协议（如DNP3）。
 **第二个问题**：请提取论文的摘要原文，摘要一般在Abstract之后，Introduction之前。
 Supervisory control and data acquisition (SCADA) systems are used to monitor and control several industrial functions such as: oil & gas, electricity, water, nuclear fusion, etc. Recently, the Internet connectivity to SCADA systems introduced new vulnerabilities to these systems and made it a target for immense amount of attacks. In the literature, several solutions have been developed to secure SCADA systems; however; the literature is lacking work directed at the development of tools to evaluate the effectiveness of such solutions. An essential requirement of such tools is the generation of normal and malicious SCADA traffic. In this paper, we present an automated tool to generate a malicious SCADA traffic to be used to evaluate such systems. We consider the traffic generation of the popular SCADA Modbus protocol. The characteristics of the generated traffic are derived from Snort network intrusion detection system (NIDS) Modbus rules. The tool uses Scapy to generate packets based on the extracted traffic features. We present the testing results for our tool. The tool is used to read a Snort rule file that contains Modbus rules to extract the required traffic features.
 **第三个问题**：请列出论文的全部作者，按照此格式：`作者1, 作者2, 作者3`。
 Rami Al-Dalky, Omar Abduljaleel, Khaled Salah, Hadi Otrok, Mahmoud Al-Qutayri
 **第四个问题**：请直接告诉我这篇论文发表在哪个会议或期刊，请不要推理或提供额外信息。
 2014 9th International Symposium on Communication Systems, Networks & Digital Signal Processing (CSNDSP)
 **第五个问题**：请详细描述这篇论文主要解决的核心问题，并用简洁的语言概述。
 核心问题：缺乏自动化、基于标准检测规则的SCADA恶意流量生成工具，无法有效评估防护与检测方案的实际效果。简述：从Snort的Modbus规则自动提取特征，用Scapy生成可触发这些规则的Modbus/TCP恶意数据包，在真实/仿真实验环境中验证安全方案。
 **第六个问题**：请告诉我这篇论文提出了哪些方法，请用最简洁的方式概括每个方法的核心思路。
 - 基于Snort规则的特征提取：解析规则头（协议、端口）与选项（content、offset），筛选Modbus相关规则（TCP/502）。
 - 头部与负载映射算法：依据offset将content分配到MBAP头、Modbus头或负载，必要时跨界写入并补齐payload。
 - 封装与发送流程：构造Modbus PDU/ADU，封装至TCP/IP（端口502），建立会话、发送、确认、关闭。
 - 实验测试床设计：发送端生成流量、接收端监听502端口、镜像端口供Snort抓取，Wireshark用于字段验证。
 **第七个问题**：请告诉我这篇论文所使用的数据集，包括数据集的名称和来源。
 本研究未使用公开数据集；使用来源为Snort NIDS规则文件（包含Modbus规则）作为流量特征输入，工具据此生成恶意Modbus/TCP数据包；实验数据来自测试床抓包与Snort告警日志（Wireshark与Snort输出）。
 **第八个问题**：请列举这篇论文评估方法的所有指标，并简要说明这些指标的作用。
 - 规则触发情况（告警条目、sid/msg匹配）：验证生成流量能否触发目标Snort规则，衡量有效性。
 - 报文字段正确性（Wireshark解析、关键字节值如第9字节0x09）：确认MBAP/Modbus头与payload按照规则设定生成。
 - 会话与传输成功率（TCP会话建立/关闭、端口502监听）：保障流量到达与被NIDS镜像捕获。
 - 规则覆盖数量（输入规则数与触发数一致性）：衡量工具对规则集的支持与完整性。
 **第九个问题**：请总结这篇论文实验的表现，包含具体的数值表现和实验结论。
 实验使用3条Modbus Snort规则作为输入，工具逐条生成恶意Modbus/TCP数据包；接收端Wireshark显示默认MBAP头并验证第9字节为0x09等关键值；Snort通过网络镜像端口捕获流量并产生3条对应告警，sid与msg与输入规则完全一致；测试床为三台工作站、1 Gbps链路、监听端口502。结论：该工具能够稳定、准确地生成可触发指定规则的恶意Modbus流量，满足SCADA安全评估对“可控恶意流量”的需求。
 **第十个问题**：请清晰地描述论文所作的工作，分别列举出动机和贡献点以及主要创新之处。
 - 动机：SCADA系统安全方案亟需在受控环境中用真实协议恶意流量进行评估，而现有研究缺少自动化流量生成工具。
 - 贡献点：
  1. 提出并实现基于Snort规则的Modbus恶意流量生成器（开源发布）。
  2. 设计规则到报文字段的映射与封装算法（MBAP/Modbus PDU/ADU到TCP/IP）。
  3. 构建评测测试床并验证工具在触发目标规则上的有效性与一致性。
 - 主要创新：
  - 首次把Snort NIDS规则直接转化为可执行的Modbus/TCP恶意数据包生成流程，实现从检测签名到攻击流量的自动闭环。
  - 细化offset/content到协议层级字段的自动映射，兼顾跨头部与payload写入的边界处理，保障生成包语义与触发条件精确匹配。
--- a/papers/md/Benchmarking
+++ b/papers/md/Benchmarking
@@ -0,0 +1,55 @@
 # Benchmarking of synthetic network data Reviewing challenges and approaches
 **第一个问题**：请对论文的内容进行摘要总结，包含研究背景与问题、研究目的、方法、主要结果和结论，字数要求在150-300字之间，使用论文中的术语和概念。
 论文聚焦NetFlow领域的合成数据质量评估缺乏标准化这一问题：NIDS训练/评估需要标注流量，但生成式模型产出的synthetic data质量难以用统一准则比较。作者通过文献综述归纳评价维度，面向NetFlow筛选并组织一组指标体系，将其聚合为Data Dissimilarity Score与Domain Dissimilarity Score，并在真实NetFlow基准数据上验证这些指标能区分同源/异源数据分布。进一步以WGAN与GPT-2生成数据做case study，利用真实数据的intra-/inter-dataset相似度建立上下界与基线，从而形成客观、模型无关的benchmark框架，用于比较不同生成器与训练过程中的数据质量变化。
 **第二个问题**：请提取论文的摘要原文，摘要一般在Abstract之后，Introduction之前。
 Datasets of labeled network traces are essential for a multitude of machine learning (ML) tasks in networking, yet their availability is hindered by privacy and maintenance concerns, such as data staleness. To overcome this limitation, synthetic network traces can often augment existing datasets. Unfortunately, current synthetic trace generation methods, which typically produce only aggregated flow statistics or a few selected packet attributes, do not always suffice, especially when model training relies on having features that are only，available from packet traces. This shortfall manifests in both insufficient statistical resemblance to real traces and suboptimal performance on ML tasks when employed for data augmentation. In this paper, we apply diffusion models to generate high-resolution synthetic network traffic traces. We present *NetDiffusion*1 , a tool that uses a finely-tuned, controlled variant of a Stable Diffusion model to generate synthetic network traffic that is high fidelity and conforms to protocol specifications. Our evaluation demonstrates that packet captures generated from NetDiffusion can achieve higher statistical similarity to real data and improved ML model performance than current state-of-the-art approaches (e.g., GAN-based approaches). Furthermore, our synthetic traces are compatible with common network analysis tools and support a myriad of network tasks, suggesting that NetDiffusion can serve a broader spectrum of network analysis and testing tasks, extending beyond ML-centric applications.
 **第三个问题**：请列出论文的全部作者，按照此格式：`作者1, 作者2, 作者3`。
 Maximilian Wolf, Julian Tritscher, Dieter Landes, Andreas Hotho, Daniel Schlör
 **第四个问题**：请直接告诉我这篇论文发表在哪个会议或期刊，请不要推理或提供额外信息。
 Computers & Security
 **第五个问题**：请详细描述这篇论文主要解决的核心问题，并用简洁的语言概述。
 核心问题是：NetFlow/网络流量合成（如GAN、GPT类生成器）越来越常用来缓解标注数据稀缺，但“合成数据到底有多像真实数据、是否能用于NIDS任务”缺少统一、可复现、可比较的质量标准，导致不同论文/生成器之间难以客观对比。论文用“多指标+结构化组织+基线区间”的方式把“分布相似性（data-driven）”与“领域可用性（domain-driven，如语法/任务表现）”统一到同一套benchmark流程中。
 **第六个问题**：请告诉我这篇论文提出了哪些方法，请用最简洁的方式概括每个方法的核心思路。
 (1) 指标综述与分类：回顾并按数据驱动/领域驱动等层级整理相似度与效用评价方法；
 (2) 指标集构建：面向NetFlow挑选一组可操作指标，并聚合为Data Dissimilarity Score与Domain Dissimilarity Score以降低对比复杂度；
 (3) 基线与上下界benchmark：在真实数据上计算intra-/inter-dataset分数范围作为参考区间，再把生成器输出映射到区间内形成“可解释的客观对照”；
 (4) 合成数据case study流程：对WGAN与GPT-2训练过程定期采样、做syntax checks过滤无效NetFlow，再计算两类dissimilarity并可视化训练轨迹。
 **第七个问题**：请告诉我这篇论文所使用的数据集，包括数据集的名称和来源。
 使用了三个NetFlow基准数据集：NF-CSE-CIC-IDS2018、NF-ToN-IoT、NF-UNSW-NB15；论文说明这些NetFlow数据基于Sarhan等人（2021）对原始数据集用同一NetFlow转换器转换到同一格式，以保证可比性。
 **第八个问题**：请列举这篇论文评估方法的所有指标，并简要说明这些指标的作用。
 论文最终用于benchmark的指标集（按Table 2分类）包括：①单变量分布：Jensen–Shannon divergence（衡量单特征分布差异）；②多变量关系：Pearson相关系数、Correlation ratio、Uncertainty coefficient（衡量数值-数值/数值-类别/类别-类别等相关结构是否一致）；③Population层面判别：Discriminator（Isolation Forest, One-Class SVM，用于区分真实/合成或刻画总体可分性）；④任务应用：TSTR与TRTS（分别“用合成训练测真实/用真实训练测合成”，并用F1-Score评估任务可用性，F1越高表示合成数据越能支撑有效分类）；⑤规则约束：NetFlow Syntax-Checks（如IP/端口/标注/正值约束、TCP标志与UDP一致性、in/out求和等，用于过滤结构或语义不合法的NetFlow）。
 **第九个问题**：请总结这篇论文实验的表现，包含具体的数值表现和实验结论。
 数值层面，论文将各指标归一到[0,1]区间，并把F1-Score转为(1−F1)以与“越小越好”的dissimilarity方向一致；同时用真实数据对比得到的intra-/inter-dataset分数分布（含最小/最大、分位数与中位数带）作为可解释的上下界基线，实验结果主要以训练历史曲线与区间带状图呈现，而非在正文给出单一对比表格数值。结论层面：Data Dissimilarity显示WGAN与GPT-2在训练中几乎都能把“数据分布”拟合到接近目标数据的水平；但Domain Dissimilarity显示两种模型在领域应用行为上与目标数据仍有明显差异，并且训练过程中“没有可见改进”，说明仅看分布相似不等价于任务/领域可用，必须同时采用data与domain两类评价。
 **第十个问题**：请清晰地描述论文所作的工作，分别列举出动机和贡献点以及主要创新之处。
 动机：合成NetFlow可缓解NIDS标注数据稀缺，但缺少“客观、标准化、可比较”的质量评估流程，阻碍不同生成器与不同论文结果的横向比较。
 贡献与创新：①系统性文献综述并指出评价标准不统一；②构建面向NetFlow的多指标benchmark系统，并把14个指标聚合为Data/Domain两类复合分数以便比较与调参；③在三套真实NetFlow基准上验证指标可区分同源/异源样本并形成基线区间（上下界）；④用WGAN与GPT-2做case study展示如何把生成数据“放入基线区间”进行客观评价；⑤开源发布benchmark框架与benchmark数据以便复用与复现实验。
 **第十一个问题**：这篇论文给出了一个在network generation领域的benchmark吗？
 是，但更准确地说它给出了“synthetic NetFlow data（网络流量生成的NetFlow表示）”的标准化benchmark：包含一套固定的指标集（聚合为Data/Domain Dissimilarity Score）、基于真实数据的intra-/inter-dataset上下界与基线范围、以及将GAN与GPT-2等生成器输出纳入该范围做客观对照的流程，并且作者声明发布了代码与benchmark数据以支持他人复用。
--- a/papers/md/NetDiffusion
+++ b/papers/md/NetDiffusion
@@ -0,0 +1,69 @@
 # NetDiffusion Network Data Augmentation Through Protocol-Constrained Traffic Gener
 **第一个问题**：请对论文的内容进行摘要总结，包含研究背景与问题、研究目的、方法、主要结果和结论，字数要求在150-300字之间，使用论文中的术语和概念。
 该文指出由于隐私与拓扑差异等限制，production traffic traces难以直接复用，研究实验需要network traffic 论文关注标注网络数据集因隐私与“data staleness”而稀缺，且现有合成方法多生成NetFlow或少量packet attributes，导致统计相似度与ML增益不足。作者提出NetDiffusion：用fine-tuned、controlled的Stable Diffusion生成高分辨率pcap级合成流量，并通过协议约束与后处理保证protocol specifications。评估表明其在JSD/TVD/HD上显著优于基线，并在数据增强的分类任务中相较GAN/NetShare获得更高准确率；合成pcap也与常用分析工具兼容，适用于更广泛的网络分析与测试场景。
 **第二个问题**：请提取论文的摘要原文，摘要一般在Abstract之后，Introduction之前。
 Datasets of labeled network traces are essential for a multitude of machine learning (ML) tasks in networking, yet their availability is hindered by privacy and maintenance concerns, such as data staleness. To overcome this limitation, synthetic network traces can often augment existing datasets. Unfortunately, current synthetic trace generation methods, which typically produce only aggregated flow statistics or a few selected packet attributes, do not always suffice, especially when model training relies on having features that are only，available from packet traces. This shortfall manifests in both insufficient statistical resemblance to real traces and suboptimal performance on ML tasks when employed for data augmentation. In this paper, we apply diffusion models to generate high-resolution synthetic network traffic traces. We present *NetDiffusion*1 , a tool that uses a finely-tuned, controlled variant of a Stable Diffusion model to generate synthetic network traffic that is high fidelity and conforms to protocol specifications. Our evaluation demonstrates that packet captures generated from NetDiffusion can achieve higher statistical similarity to real data and improved ML model performance than current state-of-the-art approaches (e.g., GAN-based approaches). Furthermore, our synthetic traces are compatible with common network analysis tools and support a myriad of network tasks, suggesting that NetDiffusion can serve a broader spectrum of network analysis and testing tasks, extending beyond ML-centric applications.
 **第三个问题**：请列出论文的全部作者，按照此格式：`作者1, 作者2, 作者3`。
 Xi Jiang, Shinan Liu, Aaron Gember-Jacobson, Arjun Nitin Bhagoji, Paul Schmitt, Francesco Bronzino, Nick Feamster
 **第四个问题**：请直接告诉我这篇论文发表在哪个会议或期刊，请不要推理或提供额外信息。
 Proceedings of the ACM on Measurement and Analysis of Computing Systems (Proc. ACM Meas. Anal. Comput. Syst.)
 **第五个问题**：请详细描述这篇论文主要解决的核心问题，并用简洁的语言概述。
 核心问题是：在隐私与维护成本限制下，难以获得可更新的标注packet traces；而现有合成方法通常只生成聚合的flow statistics或少量属性，无法满足依赖pcap特征的训练与分析，表现为统计相似度不足、用于数据增强时ML性能不佳。本文要解决的是“生成既高保真、又符合协议规范、还能直接以pcap形式用于下游工具/任务的合成网络流量”。
 **第六个问题**：请告诉我这篇论文提出了哪些方法，请用最简洁的方式概括每个方法的核心思路。
 （1）NetDiffusion生成框架：用受控的Stable Diffusion生成“network traffic image representations”，再产出pcap级合成流量，目标是高保真且协议一致。
 （2）LoRA微调：在Stable Diffusion上用LoRA做高效fine-tuning，使模型学到特定应用类别的流量纹理/模式。
 （3）ControlNet受控生成：在生成时约束生成区域与字段分布，使header/协议字段满足指定分布与协议要求。
 （4）Post-generation heuristic：对生成结果做启发式修正以进一步强化protocol conformance（字段细节纠偏）。
 **第七个问题**：请告诉我这篇论文所使用的数据集，包括数据集的名称和来源。
 论文使用的真实数据集是“pcap files capturing traffic from ten prominent applications”，覆盖三类宏服务：Video Streaming（Netflix/YouTube/Amazon/Twitch）、Video Conferencing（MS Teams/Google Meet/Zoom）、Social Media（Facebook/Twitter/Instagram），并明确来自三处数据来源文献[22,62,86]（表2中以引用号标注来源）。
 文中还说明“comprehensive dataset contains nearly 20,000 flows”，并在评估中随机采样10%用于可行性与一致性。
 另外作者开源了“sample datasets, pipeline, and results”。
 **第八个问题**：请列举这篇论文评估方法的所有指标，并简要说明这些指标的作用。
 统计相似性指标：Jensen–Shannon Divergence (JSD) 衡量分布的信息重叠；Total Variation Distance (TVD) 衡量两分布的最大差异（最坏情况偏差）；Hellinger Distance (HD) 对分布尾部更敏感，用于观察稀有事件/离群差异；三者取值0到1，越接近0相似度越高。
 任务效用指标：ML分类准确率（macro-level与micro-level），用于检验合成数据做数据增强/替代训练数据时，对下游识别任务的提升或退化。
 **第九个问题**：请总结这篇论文实验的表现，包含具体的数值表现和实验结论。
+
Author	SHA1	Message	Date
Markyan04	15fc2ce94d	Update README.md	2026-03-24 16:25:21 +08:00
Hongyu Yan	223965b107	Update .gitignore	2026-02-04 18:17:11 +08:00
Hongyu Yan	6d97c42f51	Merge branch 'master' of https://gitea.markyan04.cn/ModuFlow/internal-docs	2026-02-03 22:58:43 +08:00
Hongyu Yan	70957d099f	More Info	2026-02-03 22:58:33 +08:00
		`@@ -0,0 +1,2 @@`
							`papers/Topic8 Network Traffic Generation/NetDiffusion Network Data Augmentation Through Protocol-Constrained Traffic Generation/NetDiffusion Network Data Augmentation Through Protocol-Constrained Traffic Gener_1_33_translate_20260130214700.pdf`
							`.DS_Store`