新增提取所有md文件的脚本

所有md文件都会被提取到/papers/md文件夹下
2026-01-26 18:22:48 +08:00
parent 1b86bc7927
commit 1cbfc6d53d
27 changed files with 1457 additions and 0 deletions
--- a/papers/md/AFLNet
+++ b/papers/md/AFLNet
@@ -0,0 +1,47 @@
+# AFLNet Five Years Later On Coverage-Guided Protocol Fuzzing
+
+
+
+**第一个问题**：请对论文的内容进行摘要总结，包含研究背景与问题、研究目的、方法、主要结果和结论，字数要求在150-300字之间，使用论文中的术语和概念。
+
+协议实现是stateful且message-driven，同一消息在不同内部state下可能产生不同response，使传统coverage-guided greybox fuzzing（如AFL）难以有效测试网络协议。论文旨在对AFLNet（首个code- and state-coverage-guided protocol fuzzer）给出扩展技术讨论与大规模实证评估，并回顾其五年影响。方法上，AFLNet以message sequence作为seed，基于pcap录制/回放构建初始corpus，在线学习implemented protocol state machine（IPSM），用response code等标识state并统计#fuzz/#selected/#paths；在seed selection中交织queue顺序与state heuristics以导向progressive states；对序列分割为M1/M2/M3并在M2上施加protocol-aware与byte-level mutation；在同一bitmap中同时维护branch coverage与state transition coverage以判定interesting。结果显示：state feedback单独使用在部分对象上显著优于black-box；加入state feedback使state coverage平均提升35.67×，但对code coverage提升总体不显著；交织式seed-selection在综合code/state覆盖上最稳健。结论：state反馈能显著扩大协议状态空间探索，但“state定义”与吞吐等仍是关键挑战。
+
+**第二个问题**：请提取论文的摘要原文，摘要一般在Abstract之后，Introduction之前。
+
+Abstract—Protocol implementations are stateful which makes them difficult to test: Sending the same test input message twice might yield a different response every time. Our proposal to consider a sequence of messages as a seed for coverage-directed greybox fuzzing, to associate each message with the corresponding protocol state, and to maximize the coverage of both the state space and the code was first published in 2020 in a short tool demonstration paper. AFLNet was the first code- and state-coverage-guided protocol fuzzer; it used the response code as an indicator of the current protocol state. Over the past five years, the tool paper has gathered hundreds of citations, the code repository was forked almost 200 times and has seen over thirty pull requests from practitioners and researchers, and our initial proposal has been improved upon in many significant ways. In this paper, we first provide an extended discussion and a full empirical evaluation of the technical contributions of AFLNet and then reflect on the impact that our approach and our tool had in the past five years, on both the research and the practice of protocol fuzzing.
+
+**第三个问题**：请列出论文的全部作者，按照此格式：`作者1, 作者2, 作者3`。
+
+Ruijie Meng, Van-Thuan Pham, Marcel Böehme, Abhik Roychoudhury
+
+**第四个问题**：请直接告诉我这篇论文发表在哪个会议或期刊，请不要推理或提供额外信息。
+
+文段未给出会议或期刊信息。
+
+**第五个问题**：请详细描述这篇论文主要解决的核心问题，并用简洁的语言概述。
+
+核心问题是：如何将面向“单输入/近似无状态程序”的coverage-guided greybox fuzzing扩展到网络协议这种stateful、需要message sequence驱动且状态空间巨大的目标上，并同时兼顾code coverage与state space coverage。传统做法要么靠手工协议模型的stateful blackbox fuzzing（依赖不完备的状态/数据模型，且不保留“有趣”用例继续进化），要么把消息序列拼成文件交给AFL（无法聚焦关键消息、易生成大量无效序列）。论文围绕AFLNet提出并系统评估的一套解法：以消息序列为seed、在线推断IPSM并把状态反馈纳入引导与“interesting”判定，从而更系统地探索协议实现的状态与代码。简洁概述：让灰盒模糊测试“看见并利用协议状态”，从而可有效fuzz stateful protocols。
+
+**第六个问题**：请告诉我这篇论文提出了哪些方法，请用最简洁的方式概括每个方法的核心思路。
+
+(1) 消息序列作为seed的SCGF：把sequence of messages而非单文件输入作为进化种子，适配stateful server。(2) 录制/回放驱动（pcap→parse→send）：从真实流量提取初始语料并可重复回放以执行fuzzing迭代。(3) 轻量协议学习IPSM（implemented protocol state machine）：从response序列抽取state transitions，在线增量构建/更新状态机并维护#fuzz/#selected/#paths统计。(4) 面向progressive states的引导：按“盲点/新近/高产出”启发式选state，再在到达该state的子语料上做AFL式优先级选序列。(5) 交织式seed-selection：在coverage plateau时切换到state-heuristic重策略，否则按AFL队列顺序，兼顾吞吐与导向。(6) 三段式序列变异M1/M2/M3：固定前缀M1保证到达目标state，只在候选段M2做变异并继续执行后缀M3以观察传播效应。(7) 协议感知变异算子：对消息做replacement/insertion/duplication/deletion并与byte-level mutation堆叠。(8) 统一bitmap记录code+state覆盖：为state transition预留bitmap区域（SHIFT_SIZE），用分支与状态转移共同定义interesting seeds。
+
+**第七个问题**：请告诉我这篇论文所使用的数据集，包括数据集的名称和来源。
+
+基准为ProFuzzBench（Natella & Pham, ISSTA 2021工具/基准论文：ProFuzzBench: A benchmark for stateful protocol fuzzing），论文在其默认集成的网络协议实现（如Bftpd、DNSmasq、OpenSSH、TinyDTLS、Live555、ProFTPD、Pure-FTPd、Exim、DCMTK、Kamailio、forked-daapd、lightFTP等）上进行评测。
+
+**第八个问题**：请列举这篇论文评估方法的所有指标，并简要说明这些指标的作用。
+
+(1) Code coverage：以branch coverage（分支覆盖数）衡量探索到的代码范围，“未覆盖代码无法触发漏洞”。(2) State space coverage：以IPSM中构建的state transitions数量（以及状态数量/覆盖）衡量探索到的协议状态空间。(3) Vargha-Delaney effect size（Â12）：衡量两组独立实验结果的优势概率/效应量，用于判断差异是否具有“显著优势”（文中以Â12≥0.71或≤0.29作为显著门槛）。(4) 时间维度覆盖趋势：branch covered over time（24小时曲线）用于对比不同变体达到同等覆盖所需时间（如提到“约6×/4×更快达到相同分支数”）。
+
+**第九个问题**：请总结这篇论文实验的表现，包含具体的数值表现和实验结论。
+
+RQ1（仅state反馈）：AFLNetDARK（仅state feedback）在12个ProFuzzBench对象中有6个在code coverage上显著优于AFLNetBLACK（无code/state反馈）：Bftpd、DNSmasq、Kamailio、lightFTP、ProFTPD、Pure-FTPd；并在OpenSSH与TinyDTLS上分别约6×与4×更快达到与BLACK相同的分支数；对state数量很少的对象（如DCMTK最终仅3个state）提升不明显。结论：当state数量“足够”时，state反馈可作为无代码插桩场景的有效引导。RQ2（state+code vs 仅code，表1）：AFLNetQUEUE相对AFLNetCODE平均branch coverage提升仅+0.01%，但state coverage平均提升+35.67×；例如OpenSSH的state数从93.5提升到30480.9（+325.00×，Â12=1.00），DNSmasq从282.5到27364.0（+95.85×，Â12=1.00），Bftpd从170.5到334.0（+0.96×，Â12=1.00）。结论：额外state反馈极大扩展状态空间探索，但对代码覆盖提升整体不显著。RQ3（seed-selection策略，表2/3）：交织策略AFLNet在综合表现上最好；其相对AFLNetQUEUE平均branch coverage为-0.52%但相对AFLNetIPSM为+1.65%，同时state coverage相对AFLNetQUEUE为+5.77%、相对AFLNetIPSM为+12.77%。结论：交织式seed-selection总体上最稳健，且state覆盖与code覆盖不呈简单正相关。
+
+**第十个问题**：请清晰地描述论文所作的工作，分别列举出动机和贡献点以及主要创新之处。
+
+动机：网络协议实现是stateful reactive systems，输入是message sequence而非单文件；AFL类CGF缺乏状态与序列结构认知，SBF又依赖手工模型且不做进化保种，导致难以深入状态空间并发现实现偏差/隐藏转移与漏洞。
+
+贡献点：(1) 系统化阐释AFLNet：把消息序列纳入灰盒进化框架，并将state coverage与code coverage共同作为反馈信号。(2) 在线轻量IPSM学习与引导：通过response code等构造implemented protocol state machine，并用#fuzz/#selected/#paths等统计驱动state选择与导向。(3) 面向目标state的序列分割与变异策略（M1/M2/M3）：既保证可达性又允许在关键段落聚焦变异。(4) 统一bitmap编码分支与状态转移覆盖：在AFL bitmap中为state transition预留空间，使“interesting”判定同时考虑state与code。(5) 五年后大规模评估与配置指导：在ProFuzzBench上做24h×10次的大样本实验，分离评估state反馈、state+code协同、以及seed-selection策略，并用Â12报告效应量。
+
+主要创新之处：以“状态反馈+在线状态机学习”把灰盒fuzzing从无状态程序扩展到协议实现的状态空间探索，并给出可复现的消融式实证结论与最佳实践建议。