新增提取所有md文件的脚本

所有md文件都会被提取到/papers/md文件夹下
This commit is contained in:
Hongyu Yan
2026-01-26 18:22:48 +08:00
parent 1b86bc7927
commit 1cbfc6d53d
27 changed files with 1457 additions and 0 deletions

View File

@@ -0,0 +1,48 @@
# Flow-based Network Traffic Generation using Generative Adversarial Ne
**第一个问题**请对论文的内容进行摘要总结包含研究背景与问题、研究目的、方法、主要结果和结论字数要求在150-300字之间使用论文中的术语和概念。
论文面向NIDS评估的flow-based数据稀缺与隐私/标注难题提出用Generative Adversarial Networks生成逼真的NetFlow/IPFIX流。核心挑战是GAN仅能处理连续属性而流数据含大量categorical字段IP/端口/协议。作者提出三种预处理与生成方法N-WGAN-GP数值归一化将IP/port视为连续值、B-WGAN-GP二进制化将IP/port/bytes/packets转为bit向量、E-WGAN-GPEmbedding将IP/port/bytes/packets/duration用IP2Vec学习到R^m连续嵌入生成器采用Improved Wasserstein GAN with Gradient PenaltyWGAN-GP与TTUR训练评估采用分布可视化、属性逐维欧氏距离以及基于领域知识的七项质量测试。基于CIDDS-001数据week2-4训练、每法生成8.5M flows实验显示E-WGAN-GP与B-WGAN-GP能重现条件分布与结构关系如子网行为、协议/端口一致性E-WGAN-GP在domain checks整体最佳N-WGAN-GP易产生不合理值。结论GAN结合合适的离散到连续表示尤其IP2Vec嵌入可高质量生成flow-based网络流用于NIDS训练与评估。
**第二个问题**请提取论文的摘要原文摘要一般在Abstract之后Introduction之前。
Flow-based data sets are necessary for evaluating network-based intrusion detection systems (NIDS). In this work, we propose a novel methodology for generating realistic flow-based network traffic. Our approach is based on Generative Adversarial Networks (GANs) which achieve good results for image generation. A major challenge lies in the fact that GANs can only process continuous attributes. However, flow-based data inevitably contain categorical attributes such as IP addresses or port numbers. Therefore, we propose three different preprocessing approaches for flow-based data in order to transform them into continuous values. Further, we present a new method for evaluating the generated flow-based network traffic which uses domain knowledge to define quality tests. We use the three approaches for generating flow-based network traffic based on the CIDDS-001 data set. Experiments indicate that two of the three approaches are able to generate high quality data. Keywords: GANs, TTUR WGAN-GP, NetFlow, Generation, IDS
**第三个问题**:请列出论文的全部作者,按照此格式:`作者1, 作者2, 作者3`
Markus Ring, Daniel Schlör, Dieter Landes, Andreas Hotho
**第四个问题**:请直接告诉我这篇论文发表在哪个会议或期刊,请不要推理或提供额外信息。
Computer & Security
**第五个问题**:请详细描述这篇论文主要解决的核心问题,并用简洁的语言概述。
核心问题是如何让仅能处理连续变量的GAN生成包含大量类别型字段IP地址、端口、协议等的flow-based网络流并保证生成数据在分布多样性与内部语义关系如子网结构、协议-端口一致性上逼近真实流量以用于NIDS的训练与评估。简述通过将离散流属性转换为适合GAN的连续表示数值化、二进制化或IP2Vec嵌入用WGAN-GP+TTUR学习真实流特征并生成高质量合成流再用领域知识规则与分布距离进行质量评估。
**第六个问题**:请告诉我这篇论文提出了哪些方法,请用最简洁的方式概括每个方法的核心思路。
(1) N-WGAN-GP将IP四段与端口按数值归一化到[0,1]连续化bytes/packets/duration后用WGAN-GP+TTUR生成。 (2) B-WGAN-GP将IP映射为32位二进制、端口为16位二进制bytes/packets为限定长度二进制表示保留子网结构信息后用WGAN-GP生成。 (3) E-WGAN-GP扩展IP2Vec学习IP/port/protocol及bytes/packets/duration的m维嵌入GAN生成嵌入后通过最近邻如余弦相似反映射回原值。 (4) Baseline独立抽样各属性的经验分布作为对照。 (5) 评估方法分布可视化、逐属性欧氏距离、七项domain knowledge checks质量测试。
**第七个问题**:请告诉我这篇论文所使用的数据集,包括数据集的名称和来源。
CIDDS-001Flow-based benchmark data sets for intrusion detection来源于Coburg University与Würzburg University的公开数据集采用OpenStack仿真企业网络环境抓取的NetFlow使用week2-4约2200万flows为训练、week1约850万flows为参考评估。
**第八个问题**:请列举这篇论文评估方法的所有指标,并简要说明这些指标的作用。
(1) 可视化分布(小提琴图/时间分布):检查条件分布与子网行为是否匹配真实流量。 (2) 属性欧氏距离:比较生成数据与训练集在各属性上的概率分布差异,衡量分布逼近程度与概念漂移合理性。 (3) Domain knowledge checks7项规则基于协议-旗标一致性、内部/外部IP约束、HTTP/HTTPS/DNS协议端口对应、广播/多播位置、NetBIOS流结构、bytes/packets范围关系等检验内部语义与关系正确性。 (4) 生成规模与覆盖每法生成8.5M flows确保多样性与统计稳定性。
**第九个问题**:请总结这篇论文实验的表现,包含具体的数值表现和实验结论。
在CIDDS-001上每种方法生成约8.5百万flows。时间分布方面E-WGAN-GP曲线平滑且贴近真实week1的工作时段/午休行为。属性分布可视化显示baseline无法捕获条件分布N-WGAN-GP错误地集中到ext子网B-WGAN-GP与E-WGAN-GP能区分客户端/服务器端口与目的IP范围。欧氏距离相对week2-4E-WGAN-GP在source/dest port、bytes、packets等属性上与参考week1相近如destination port 0.0327bytes 0.0278packets 0.0251N-WGAN-GP在端口/bytes/packets距离较大如source port 0.5658bytes 0.5858packets 1.0416。七项domain checks%通过率E-WGAN-GP在Test17整体最高如Test1 99.77、Test2 99.98、Test7 99.49B-WGAN-GP在协议端口一致性表现优Test3 99.97、Test4 99.90但在广播相关规则较弱Test5 47.13、Test6 40.19N-WGAN-GP在UDP/TCP旗标和DNS/HTTP规则明显较差Test4 87.14baseline整体最低。结论E-WGAN-GP质量最佳、B-WGAN-GP次之且可生成未见值N-WGAN-GP不适合。
**第十个问题**:请清晰地描述论文所作的工作,分别列举出动机和贡献点以及主要创新之处。
动机NIDS评估缺乏最新、可共享且带标签的flow-based数据GAN擅长生成但网络流含大量类别型字段、语义关系复杂直接应用受限。
贡献点:(1) 提出首个面向完整flow-based网络流的GAN生成框架采用WGAN-GP+TTUR稳定训练(2) 提出三种离散到连续转换策略N/B/Embedding系统解决GAN处理类别属性的关键障碍(3) 扩展IP2Vec以学习bytes/packets/duration等数值字段的上下文化嵌入并给出嵌入反映射方案(4) 提出结合分布距离与七项领域知识规则的综合评估方法;(5) 在CIDDS-001大规模实验中验证两种方法能生成高质量数据。
主要创新用IP2Vec嵌入将复杂离散网络流属性及数值属性统一到连续空间使GAN能内生学习属性间条件依赖提出领域知识驱动的质量测试补足仅看分布的评估盲点二进制化策略保留子网与结构信息兼顾生成未见值的能力。