新增论文概要

This commit is contained in:
Hongyu Yan
2026-01-26 00:18:00 +08:00
parent 4af2d73cc8
commit 3219222204
67 changed files with 170 additions and 0 deletions

View File

@@ -0,0 +1,9 @@
@misc{hou2022graphmaeselfsupervisedmaskedgraph,
title={GraphMAE: Self-Supervised Masked Graph Autoencoders},
author={Zhenyu Hou and Xiao Liu and Yukuo Cen and Yuxiao Dong and Hongxia Yang and Chunjie Wang and Jie Tang},
year={2022},
eprint={2205.10803},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2205.10803},
}

View File

@@ -0,0 +1,58 @@
# **GraphMAE: Self-Supervised Masked Graph Autoencoders**
**第一个问题**请对论文的内容进行摘要总结包含研究背景与问题、研究目的、方法、主要结果和结论字数要求在150-300字之间使用论文中的术语和概念。
论文关注图自监督学习中“contrastive learning主导、generative SSL/graph autoencoders(GAEs)未发挥潜力”的现状指出GAEs受四类问题制约过度强调structure reconstruction、无corruption的feature reconstruction易学到trivial solution、MSE对特征范数/维度敏感导致训练不稳、MLP decoder表达力不足。研究目的在于系统缓解这些缺陷使GAE在node/graph classification与transfer learning上可与甚至超越SOTA对比学习方法。方法上提出GraphMAE采用masked feature reconstruction作为目标而非重建结构用[MASK]做输入特征遮蔽并在解码前re-mask[DMASK]引入更具表达力的GNN decoder并以scaled cosine error(SCE)替代MSE以提升稳定性与对hard samples的选择性。实验覆盖21个公开数据集、三类任务GraphMAE在节点分类上如Cora 84.2%、PubMed 81.1%、Reddit 96.0%图分类与分子迁移学习也整体优于或匹配SOTA基线。结论是经过关键设计的简单masked GAE可稳定释放generative SSL在图上的潜力。
**第二个问题**请提取论文的摘要原文摘要一般在Abstract之后Introduction之前。
Self-supervised learning (SSL) has been extensively explored in recent years. Particularly, generative SSL has seen emerging suc-cess in natural language processing and other AI fields, such as the wide adoption of BERT and GPT. Despite this, contrastive learning—which heavily relies on structural data augmentation and compli-cated training strategies—has been the dominant approach in graph SSL, while the progress of generative SSL on graphs, especially graph autoencoders (GAEs), has thus far not reached the potential as promised in other fields. In this paper, we identify and exam-ine the issues that negatively impact the development of GAEs, including their reconstruction objective, training robustness, and error metric. We present a masked graph autoencoder GraphMAE that mitigates these issues for generative self-supervised graph pre-training. Instead of reconstructing graph structures, we propose to focus on feature reconstruction with both a masking strategy and scaled cosine error that benefit the robust training of Graph-MAE. We conduct extensive experiments on 21 public datasets for three different graph learning tasks. The results manifest that GraphMAE—a simple graph autoencoder with careful designs—can consistently generate outperformance over both contrastive and generative state-of-the-art baselines. This study provides an under-standing of graph autoencoders and demonstrates the potential of generative self-supervised pre-training on graphs.
**第三个问题**:请列出论文的全部作者,按照此格式:`作者1, 作者2, 作者3`
Zhenyu Hou, Xiao Liu, Yukuo Cen, Yuxiao Dong, Hongxia Yang, Chunjie Wang, Jie Tang
**第四个问题**:请直接告诉我这篇论文发表在哪个会议或期刊,请不要推理或提供额外信息。
KDD 22
**第五个问题**:请详细描述这篇论文主要解决的核心问题,并用简洁的语言概述。
论文要解决的核心问题是为什么graph autoencodersGAEs在图自监督中长期弱于对比学习以及如何让“生成式自监督generative SSL”在图上达到与对比学习相当甚至更强的表征质量尤其面向node/graph classification与预训练迁移。作者总结了制约GAEs的关键瓶颈①目标偏差大量GAE以link/structure reconstruction为主导致对分类任务帮助有限②鲁棒性不足不做输入corruption的feature reconstruction容易学到identity function/trivial solution图特征维度通常较小使该问题更突出③误差度量不合适MSE对特征范数差异与维度灾难敏感、训练易不稳定甚至collapse且对易/难样本区分度低④decoder表达力弱常用MLP难以从低语义连续特征中有效“拉开”编码与重建目标导致潜变量退化为原始特征拷贝。简洁概述把GAE从“重建结构+MSE+弱解码”改造为“masked特征重建+稳定的SCE损失+GNN解码与re-mask正则”从根上提升生成式图预训练的可用性与效果。
**第六个问题**:请告诉我这篇论文提出了哪些方法,请用最简洁的方式概括每个方法的核心思路。
1) GraphMAEMasked Graph Autoencoder仅以feature reconstruction为自监督目标通过遮蔽部分节点特征来学习可迁移表示。
2) Masked feature reconstruction随机采样节点子集V~并用可学习向量[MASK]替换其输入特征迫使编码器利用邻域上下文恢复信息、避免trivial solution。
3) Re-mask decoding在解码前将被遮蔽节点的编码表示再次替换为[DMASK],让解码器必须依赖邻居的未遮蔽潜表示来重建被遮蔽节点特征。
4) GNN decoder用单层GNN如GAT/GIN/GCN替代传统MLP解码器提高解码表达力并引导编码器学习更高层潜表示。
5) Scaled Cosine ErrorSCE以(1-cosine(x,z))^γ作为重建损失,利用余弦误差消除范数/维度敏感性并用γ实现对hard samples的“focal”式重加权提升训练稳定性与选择性。
6) Random-substitution可选策略对被mask节点用随机替换而非“leave unchanged”减轻训练/推理的mask-token分布偏移论文指出leave-unchanged会伤害效果
**第七个问题**:请告诉我这篇论文所使用的数据集,包括数据集的名称和来源。
节点分类6个Cora, Citeseer, PubMed引文网络论文引用[48]等经典基准ogbn-arxivOpen Graph BenchmarkOGB论文引用[15]PPI, RedditGraphSAGE常用归纳基准论文引用其inductive setting来自GraphSAGE[10])。
图分类7个MUTAG, IMDB-B, IMDB-M, PROTEINS, COLLAB, REDDIT-B, NCI1论文引用[47]等图分类基准集合)。迁移学习/分子性质预测预训练数据为ZINC152 million无标签分子论文引用[33]下游为MoleculeNet论文引用[43]的8个分类数据集BBBP, Tox21, ToxCast, SIDER, ClinTox, MUV, HIV, BACE。
**第八个问题**:请列举这篇论文评估方法的所有指标,并简要说明这些指标的作用。
节点分类AccuracyCora/Citeseer/PubMed/ogbn-arxiv/Reddit用于衡量单标签分类正确率Micro-F1PPI多标签用于在多标签场景下按全局TP/FP/FN统计综合衡量分类质量。
图分类Accuracy10-fold cross-validation accuracy报告均值与标准差用于衡量图级标签预测正确率并用10折交叉验证减少划分方差。
迁移学习分子性质预测ROC-AUC%)衡量二分类在不同阈值下的排序/区分能力,对类别不均衡更稳健。
论文还报告了均值±标准差、以及部分实验“20次线性分类器随机初始化平均”等作为统计稳定性呈现方式。
**第九个问题**:请总结这篇论文实验的表现,包含具体的数值表现和实验结论。
节点分类Table 1GraphMAE在Cora 84.2±0.4Citeseer 73.4±0.4PubMed 81.1±0.4ogbn-arxiv 71.75±0.17PPI Micro-F1 74.50±0.29Reddit 96.01±0.08相较代表性对比方法CCA-SSG分别为Cora 84.0±0.4、PubMed 81.0±0.4、Reddit 95.07±0.02等GraphMAE整体为最佳或竞争性最强并显著超过生成式基线如GAECora 71.5±0.4与GPT-GNNCora 80.1±1.0)。
图分类Table 2accuracyGraphMAE在IMDB-B 75.52±0.66、IMDB-M 51.63±0.52、PROTEINS 75.30±0.39、COLLAB 80.32±0.46、MUTAG 88.19±1.26、REDDIT-B 88.01±0.19、NCI1 80.40±0.30在5/7数据集上优于所有自监督基线并在其余数据集上具竞争力如MUTAG略低于InfoGCL 91.20±1.30但与多基线接近)。
迁移学习Table 3ROC-AUC Avg.GraphMAE平均73.8优于GraphLoG 73.4、JOAO 71.9、GraphCL 70.8等在单项上如ClinTox 82.3±1.2、HIV 83.1±0.9等表现突出。
消融Table 4去掉maskCora 79.7、用MSE替代SCECora 79.1都会大幅降分去掉re-mask也会下降Cora 82.7)。
实验结论GraphMAE通过“mask + re-mask + GNN decoder + SCE”实现稳定训练使生成式图预训练在节点/图分类与分子迁移上系统性达到或超过SOTA对比学习。
**第十个问题**:请清晰地描述论文所作的工作,分别列举出动机和贡献点以及主要创新之处。
动机1) 图自监督长期依赖contrastive learning但其需要复杂训练策略动量编码器/EMA/stop-gradient、负样本与高质量图增强工程与理论负担重且跨图不稳2) GAEs天然更简单但在分类任务上落后作者希望找出其“没做对”的关键原因并让generative SSL在图上复兴。
贡献点1) 系统识别GAEs发展的关键障碍重建目标偏置结构优先、无corruption导致trivial solution、MSE引发不稳定与低选择性、decoder表达力不足。2) 提出GraphMAE框架以masked feature reconstruction为核心避免结构重建带来的任务偏置并提升分类导向表征。3) 提出Scaled Cosine ErrorSCE用余弦误差解决范数/维度敏感并用γ缩放实现对难样本的自适应重加权类focal loss思想显著提升训练鲁棒性。4) 提出re-mask decoding + GNN decoder通过[DMASK]与图解码器迫使信息从邻域潜表示流入重建增强压缩表征学习。5) 在21个公开数据集、三类任务上给出系统实证GraphMAE作为“简单但设计到位的GAE”可持续优于对比与生成式SOTA基线。
主要创新之处将“MAE式遮蔽重建”迁移到图并针对图特征连续/低语义、易trivial解的特性联合设计SCE损失与re-mask+GNN解码使生成式图自监督在稳定性与效果上同时跨越式提升。

View File

@@ -0,0 +1,9 @@
@misc{hu2020heterogeneousgraphtransformer,
title={Heterogeneous Graph Transformer},
author={Ziniu Hu and Yuxiao Dong and Kuansan Wang and Yizhou Sun},
year={2020},
eprint={2003.01332},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2003.01332},
}

View File

@@ -0,0 +1,54 @@
# Heterogeneous Graph Transformer
**第一个问题**请对论文的内容进行摘要总结包含研究背景与问题、研究目的、方法、主要结果和结论字数要求在150-300字之间使用论文中的术语和概念。
论文面向Web-scale heterogeneous graphs节点/边多类型且随时间演化中现有GNN多为homogeneous设计、依赖手工meta paths、难刻画异构分布差异与动态、且不具备可扩展训练的问题提出Heterogeneous Graph TransformerHGT。研究目的在于用端到端方式学习node- and edge-type dependent representations隐式学习“soft meta paths”并能处理dynamic heterogeneous graphs与超大规模训练。方法上HGT以meta relation ⟨τ(s),φ(e),τ(t)⟩分解参数构建异构mutual attention、message passing与target-specific aggregation引入Relative Temporal EncodingRTE用相对时间差∆T建模任意跨度的时序依赖提出HGSampling以保持各类型节点比例与子图稠密性实现mini-batch训练。实验在OAG179M nodes/2B edges及CS/Med子图上HGT在PaperField、PaperVenue与Author Disambiguation等任务上相对SOTA基线提升9%21%消融显示Heter与RTE均显著贡献。结论是HGT可在大规模异构动态图上高效、稳定优于现有GNN。
**第二个问题**请提取论文的摘要原文摘要一般在Abstract之后Introduction之前。
Recent years have witnessed the emerging success of graph neu-ral networks (GNNs) for modeling structured data. However, most GNNs are designed for homogeneous graphs, in which all nodes and edges belong to the same types, making them infeasible to represent heterogeneous structures. In this paper, we present the Heterogeneous Graph Transformer (HGT) architecture for mod-eling Web-scale heterogeneous graphs. To model heterogeneity, we design node- and edge-type dependent parameters to charac-terize the heterogeneous attention over each edge, empowering HGT to maintain dedicated representations for different types of nodes and edges. To handle dynamic heterogeneous graphs, we in-troduce the relative temporal encoding technique into HGT, which is able to capture the dynamic structural dependency with arbitrary durations. To handle Web-scale graph data, we design the hetero-geneous mini-batch graph sampling algorithm—HGSampling—for efficient and scalable training. Extensive experiments on the Open Academic Graph of 179 million nodes and 2 billion edges show that the proposed HGT model consistently outperforms all the state-of-the-art GNN baselines by 9%21%on various downstream tasks. The dataset and source code of HGT are publicly available at https://github.com/acbull/pyHGT.
**第三个问题**:请列出论文的全部作者,按照此格式:`作者1, 作者2, 作者3`
Ziniu Hu, Yuxiao Dong, Kuansan Wang, Yizhou Sun
**第四个问题**:请直接告诉我这篇论文发表在哪个会议或期刊,请不要推理或提供额外信息。
Proceedings of The Web Conference 2020 (WWW 20)
**第五个问题**:请详细描述这篇论文主要解决的核心问题,并用简洁的语言概述。
论文要解决的核心问题是在Web级别的异构信息网络中如何在不依赖手工meta paths的前提下同时1刻画不同node/edge类型带来的分布差异与语义差异heterogeneity2刻画图随时间演化带来的结构依赖dynamic并且3在数亿节点、数十亿边上实现可扩展的GNN训练scalability。现有异构GNN往往只按node type或edge type单独建模、参数难以共享导致稀有关系学习不稳对动态图常用“按时间切片建多个图”会丢失跨时间结构依赖训练上直接全图传播不可行现有采样在异构图上会产生类型极不均衡子图。简洁概述提出一种以meta relation驱动的Transformer式异构注意力GNN并配套相对时间编码与异构小批量采样使其能在超大规模异构动态图上端到端学习表示并提升下游任务效果。
**第六个问题**:请告诉我这篇论文提出了哪些方法,请用最简洁的方式概括每个方法的核心思路。
1) HGTHeterogeneous Graph Transformer用meta relation ⟨τ(s),φ(e),τ(t)⟩对注意力与消息传递参数进行分解与共享构建异构multi-head mutual attention、异构message passing与target-specific aggregation含残差以生成上下文化表示。
2) Heterogeneous Mutual Attention对不同node type使用不同的Key/Query线性投影并对不同edge type使用W_ATT变换再用meta-relation prior μ对注意力进行自适应缩放。
3) Heterogeneous Message Passing对不同source node type使用不同的消息线性投影M-Linear并用每种edge type的W_MSG注入关系语义形成多头消息。
4) RTERelative Temporal Encoding用相对时间差∆T(t,s)=T(t)-T(s)查找/生成sinusoid basis并经线性层T-Linear映射将RTE(∆T)加到source表示以建模任意跨度、可泛化到未见时间的动态依赖。
5) HGSampling为每种node type维护独立budget并用归一化度数的importance sampling采样出类型比例更均衡且更稠密的异构子图用于mini-batch训练。
6) Inductive Timestamp Assignment对无固定时间戳的plain nodes在采样时从相连event nodes继承时间戳以支持动态建模。
**第七个问题**:请告诉我这篇论文所使用的数据集,包括数据集的名称和来源。
1) Open Academic GraphOAG论文实验基础数据集引用[16,20,28]规模约178/179 million nodes与2.236/2 billion edges时间跨度19002019。
2) Computer ScienceCS学术图从OAG构建的领域子图。
3) MedicineMed学术图从OAG构建的领域子图。代码与数据入口论文给出公开仓库 https://github.com/acbull/pyHGT。
**第八个问题**:请列举这篇论文评估方法的所有指标,并简要说明这些指标的作用。
论文使用两类排序指标NDCGNormalized Discounted Cumulative Gain衡量排序结果在Top位置的相关性质量对靠前位置赋予更高权重适用于多标签/多候选的ranking式评估MRRMean Reciprocal Rank对每个查询取正确答案排名的倒数再求均值反映模型把正确答案排到前面的能力常用于link prediction与候选排序任务。
**第九个问题**:请总结这篇论文实验的表现,包含具体的数值表现和实验结论。
总体结论HGT在CS/Med/OAG三套大规模异构图、四个任务上NDCG与MRR均显著且一致优于GCN/GAT/RGCN/HetGNN/HAN并在参数量与batch time上优于多数异构GNN基线。
关键数值Table 2均值±方差列出HGT完整版 HGT(+RTE,+Heter) 与最佳基线HAN对比为主在OAG的PaperField(L1)上HAN NDCG 0.544±0.096 / MRR 0.622±0.092HGT达0.615±0.084 / 0.702±0.081在OAG的PaperVenue上HAN NDCG 0.327±0.062 / MRR 0.214±0.067HGT达0.355±0.062 / 0.247±0.061在OAG的Author Disambiguation上HAN NDCG 0.821±0.056 / MRR 0.660±0.049HGT达0.852±0.048 / 0.688±0.054。CS数据集的PaperField(L1)上HAN NDCG 0.618±0.058 / MRR 0.691±0.051HGT达0.718±0.014 / 0.823±0.019Med数据集的PaperField(L1)上HAN NDCG 0.607±0.054 / MRR 0.575±0.057HGT达0.709±0.029 / 0.688±0.048。
消融去掉异构参数化HGT +RTE Heter相对完整版有约4%性能下降去掉RTEHGT RTE +Heter约2%下降。效率表中示例在CS任务设置下HGT参数量8.20M、batch time约1.50s低于HAN的9.45M与2.27s且优于RGCN/HetGNN的参数规模与速度。
**第十个问题**:请清晰地描述论文所作的工作,分别列举出动机和贡献点以及主要创新之处。
动机1) 现实系统(学术网/社交网/经济网/IoT天然是heterogeneous graphshomogeneous GNN假设不成立2) 既有异构方法依赖手工meta paths或仅按node/edge单维度建模难同时捕获共享模式与特定模式3) 真实图是dynamic heterogeneous graph时间切片会丢失跨时间结构依赖4) Web-scale规模下需要可扩展mini-batch训练现有采样在异构图上会产生类型失衡与信息损失。
贡献点1) 提出HGT架构以meta relation ⟨τ(s),φ(e),τ(t)⟩为核心进行参数分解与共享定义异构mutual attention、message passing与target-specific aggregation实现无需手工meta paths的端到端异构表示学习隐式“soft meta paths”。2) 提出RTE基于相对时间差的时间编码机制可建模任意时长、并泛化到未见时间戳/未来时间。3) 提出HGSampling与配套的inductive timestamp assignment在Web级异构图上采样类型更均衡且更稠密的子图支持高效mini-batch训练与动态图时间戳分配。4) 在OAG179M/2B及CS/Med子图上进行大规模实验证明相对SOTA基线持续提升论文总结为9%21%)。
主要创新之处将Transformer式多头注意力与“基于meta relation的三元分解参数化node-type投影 + edge-type变换 + meta-relation prior”结合实现更强的异构建模与更高的参数共享效率同时把相对时间编码与异构专用采样机制纳入统一训练框架使模型真正可落地于Web-scale异构动态图。

View File

@@ -0,0 +1,21 @@
图表示学习/异构图(直接对应你选的(设备,寄存器)结构)
你明确了节点是 (设备,寄存器),这天然是二部图/异构图Device 与 Register 两类实体。STOUTER 用的是 base station graph你这里更建议引用异构图建模经典方法解释为什么要用二部图结构做“空间先验”。
Kipf & Welling. Semi-Supervised Classification with Graph Convolutional Networks (GCN). ICLR 2017.
用途:基础 GCN你做拓扑表征学习的常用基线引用。
Veličković et al. Graph Attention Networks (GAT). ICLR 2018.
用途:注意力聚合,适合“不同邻边权重不同”(例如不同设备之间依赖强弱不同)。
Xu et al. How Powerful are Graph Neural Networks? (GIN). ICLR 2019.
用途:强调结构表达能力;如果你需要强结构区分能力,可引用。
Schlichtkrull et al. Modeling Relational Data with Graph Convolutional Networks (R-GCN). ESWC 2018.
用途:关系类型图卷积;很适合你在(设备,寄存器)图里加入多种边read、write、same-device、process-link 等关系类型。
Hu et al. Heterogeneous Graph Transformer (HGT). WWW 2020.
用途:异构图 Transformer如果你后续把“设备类型/寄存器类型/功能码”都纳入异构建模HGT 是很强的参考。
Hou et al. GraphMAE: Self-Supervised Masked Graph Autoencoders. KDD/相关会议 2022.
用途:图自监督预训练;对应 STOUTER 的图 autoencoder 预训练思想,你可以用它支撑“先学图嵌入,再用于生成”。

View File

@@ -0,0 +1,52 @@
# Modeling Relational Data with Graph Convolutional Networks
**第一个问题**请对论文的内容进行摘要总结包含研究背景与问题、研究目的、方法、主要结果和结论字数要求在150-300字之间使用论文中的术语和概念。
论文针对知识图谱directed labeled multigraph不完整导致下游应用受损的问题聚焦两类SRL任务link prediction补全缺失三元组与entity classification补全实体属性/类型。研究目的在于将GCN扩展到高度multi-relational数据显式利用邻域结构进行多步信息传播。方法上提出Relational Graph Convolutional NetworksR-GCN采用关系特定变换的消息聚合并通过basis decomposition与block-diagonal decomposition进行参数共享/稀疏化正则在link prediction中构建R-GCN encoder + DistMult decoder的图自编码框架。结果显示R-GCN在AIFB与AM实体分类达SOTA95.83%、89.29%并在FB15k-237上相对decoder-only DistMult带来29.8%的提升。结论是显式建模relational neighborhoods的R-GCN对知识库补全与实体分类有效尤其适用于更具挑战的数据集。
**第二个问题**请提取论文的摘要原文摘要一般在Abstract之后Introduction之前。
Knowledge graphs enable a wide variety of applications, in-cluding question answering and information retrieval. De-spite the great effort invested in their creation and mainte-nance, even the largest (e.g., Yago, DBPedia or Wikidata)remain incomplete. We introduce Relational Graph Convo-lutional Networks (R-GCNs) and apply them to two standardknowledge base completion tasks: Link prediction (recoveryof missing facts, i.e. subject-predicate-object triples) and en-tity classification (recovery of missing entity attributes). R-GCNs are related to a recent class of neural networks operat-ing on graphs, and are developed specifically to deal with thehighly multi-relational data characteristic of realistic knowl-edge bases. We demonstrate the effectiveness of R-GCNs asa stand-alone model for entity classification. We further showthat factorization models for link prediction such as DistMultcan be significantly improved by enriching them with an en-coder model to accumulate evidence over multiple inferencesteps in the relational graph, demonstrating a large improve-ment of 29.8% on FB15k-237 over a decoder-only baseline.
**第三个问题**:请列出论文的全部作者,按照此格式:`作者1, 作者2, 作者3`
Michael Schlichtkrull, Thomas N. Kipf, Peter Bloem, Rianne van den Berg, Ivan Titov, Max Welling
**第四个问题**:请直接告诉我这篇论文发表在哪个会议或期刊,请不要推理或提供额外信息。
arXivarXiv:1703.06103v4
**第五个问题**:请详细描述这篇论文主要解决的核心问题,并用简洁的语言概述。
核心问题是如何在高度多关系multi-relational的知识图谱中利用图结构邻域信息进行表示学习从而更好地完成知识库补全任务link prediction预测缺失的(subject, relation, object)三元组与实体分类任务entity classification预测缺失实体类型/属性),同时解决“关系类型多→参数量随|R|快速增长→易过拟合且难扩展”的工程与统计难题。简洁概述把GCN扩展为能处理多关系有向标注多重图的R-GCN并用可扩展的参数共享/稀疏化设计让模型能在真实KG上通过多步信息传播提升补全与分类性能。
**第六个问题**:请告诉我这篇论文提出了哪些方法,请用最简洁的方式概括每个方法的核心思路。
1) R-GCNRelational Graph Convolutional Network在消息传递/邻域聚合中引入“按关系类型r区分的线性变换W_r”和self-loop项通过堆叠多层实现多步relational传播。
2) Basis decomposition式3把每个关系的W_r表示为若干共享basis矩阵V_b的线性组合仅系数a_rb随关系变化以参数共享抑制过拟合并降低参数量。
3) Block-diagonal decomposition式4把W_r约束为块对角结构若干小矩阵直和用结构化稀疏减少参数与计算。
4) 实体分类模型R-GCN堆叠后接per-node softmax优化cross-entropy式5
5) 链路预测自编码框架R-GCN作为encoder产出实体表示e_iDistMult作为decoder用对角关系矩阵R_r打分f(s,r,o)=e_s^T R_r e_o式6用negative sampling + logistic交叉熵训练式7
6) R-GCN+集成将训练好的R-GCN打分与单独训练的DistMult按权重α线性融合以互补。
**第七个问题**:请告诉我这篇论文所使用的数据集,包括数据集的名称和来源。
实体分类RDF格式来自Ristoski, de Vries, and Paulheim 2016的基准集合论文给出下载链接dws.informatik.uni-mannheim.deAIFB, MUTAG, BGS, AM。链路预测WN18WordNet子集FB15kFreebase子集FB15k-237Toutanova and Chen 2015基于FB15k去除inverse triplet pairs后的版本
**第八个问题**:请列举这篇论文评估方法的所有指标,并简要说明这些指标的作用。
实体分类指标Accuracy——分类正确的比例用于衡量实体类型/属性预测的整体正确率。链路预测指标MRRMean Reciprocal Rank分Raw与Filtered——对每个查询的正确实体排名取倒数再求均值越大表示越容易把真值排在前面Raw不移除其他真实三元组干扰Filtered会过滤掉“在KG中本就为真”的候选以更可靠。Hits@1 / Hits@3 / Hits@10论文报告Filtered——真值是否落在前1/3/10名的比例衡量Top-K检索质量。
**第九个问题**:请总结这篇论文实验的表现,包含具体的数值表现和实验结论。
实体分类AccuracyTable 210次均值AIFB上R-GCN 95.83优于Feat 55.55、WL 80.55、RDF2Vec 88.88MUTAG上R-GCN 73.23低于Feat 77.94与WL 80.88高于RDF2Vec 67.20BGS上R-GCN 83.10低于WL 86.20与RDF2Vec 87.24高于Feat 72.41AM上R-GCN 89.29略高于RDF2Vec 88.33与WL 87.37。链路预测FB15kTable 4DistMult filtered MRR 0.634 vs R-GCN 0.651 vs R-GCN+ 0.696WN18Table 4DistMult filtered MRR 0.813 vs R-GCN 0.814 vs R-GCN+ 0.819FB15k-237Table 5DistMult filtered MRR 0.191 vs R-GCN 0.248相对提升约29.8%filtered Hits@10为0.376 vs 0.414。
实验结论R-GCN作为entity classification端到端模型在部分数据集达SOTA作为encoder与DistMult结合能在更“去捷径”的FB15k-237上显著优于纯因子分解decoder证明多步邻域证据累积有效。
**第十个问题**:请清晰地描述论文所作的工作,分别列举出动机和贡献点以及主要创新之处。
动机1) 真实知识图谱高度不完整需通过link prediction与entity classification补全2) 缺失信息往往蕴含在relational neighborhood结构中需要可微的多步传播来聚合证据3) 直接把GCN用于多关系KG会遇到“关系多→参数爆炸/稀疏关系过拟合”的可扩展性问题。
贡献点1) 提出R-GCN将GCN/消息传递框架系统性扩展到directed labeled multigraph的多关系建模并用于两大标准任务实体分类、链路预测。2) 提出两种面向大规模关系集合的参数约束/共享机制basis decomposition与block-diagonal decomposition使R-GCN可在多关系场景训练。3) 在link prediction中给出encoder-decoderR-GCN + DistMult图自编码范式证明“在decoder因子分解前加入R-GCN encoder进行多步信息传播”可显著提升性能FB15k-237上相对DistMult提升29.8%)。
主要创新之处:将“关系类型特定的邻域变换 + 可扩展参数化basis/块对角)+ 多步传播的encoder”组合为统一R-GCN框架并在KG补全中以实证显示其相对纯因子分解的优势。

View File

@@ -0,0 +1,9 @@
@misc{schlichtkrull2017modelingrelationaldatagraph,
title={Modeling Relational Data with Graph Convolutional Networks},
author={Michael Schlichtkrull and Thomas N. Kipf and Peter Bloem and Rianne van den Berg and Ivan Titov and Max Welling},
year={2017},
eprint={1703.06103},
archivePrefix={arXiv},
primaryClass={stat.ML},
url={https://arxiv.org/abs/1703.06103},
}

View File

@@ -0,0 +1,9 @@
@misc{veličković2018graphattentionnetworks,
title={Graph Attention Networks},
author={Petar Veličković and Guillem Cucurull and Arantxa Casanova and Adriana Romero and Pietro Liò and Yoshua Bengio},
year={2018},
eprint={1710.10903},
archivePrefix={arXiv},
primaryClass={stat.ML},
url={https://arxiv.org/abs/1710.10903},
}

View File

@@ -0,0 +1,9 @@
@misc{xu2019powerfulgraphneuralnetworks,
title={How Powerful are Graph Neural Networks?},
author={Keyulu Xu and Weihua Hu and Jure Leskovec and Stefanie Jegelka},
year={2019},
eprint={1810.00826},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/1810.00826},
}

View File

@@ -0,0 +1,9 @@
@misc{kipf2017semisupervisedclassificationgraphconvolutional,
title={Semi-Supervised Classification with Graph Convolutional Networks},
author={Thomas N. Kipf and Max Welling},
year={2017},
eprint={1609.02907},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/1609.02907},
}