Heterogeneous Graph Transformer

第一个问题：请对论文的内容进行摘要总结，包含研究背景与问题、研究目的、方法、主要结果和结论，字数要求在150-300字之间，使用论文中的术语和概念。

论文面向Web-scale heterogeneous graphs（节点/边多类型且随时间演化）中现有GNN多为homogeneous设计、依赖手工meta paths、难刻画异构分布差异与动态、且不具备可扩展训练的问题，提出Heterogeneous Graph Transformer（HGT）。研究目的在于：用端到端方式学习node- and edge-type dependent representations，隐式学习“soft meta paths”，并能处理dynamic heterogeneous graphs与超大规模训练。方法上，HGT以meta relation ⟨τ(s),φ(e),τ(t)⟩分解参数，构建异构mutual attention、message passing与target-specific aggregation；引入Relative Temporal Encoding（RTE）用相对时间差∆T建模任意跨度的时序依赖；提出HGSampling以保持各类型节点比例与子图稠密性，实现mini-batch训练。实验在OAG（179M nodes/2B edges）及CS/Med子图上，HGT在Paper–Field、Paper–Venue与Author Disambiguation等任务上相对SOTA基线提升9%–21%，消融显示Heter与RTE均显著贡献。结论是HGT可在大规模异构动态图上高效、稳定优于现有GNN。

第二个问题：请提取论文的摘要原文，摘要一般在Abstract之后，Introduction之前。

Recent years have witnessed the emerging success of graph neu-ral networks (GNNs) for modeling structured data. However, most GNNs are designed for homogeneous graphs, in which all nodes and edges belong to the same types, making them infeasible to represent heterogeneous structures. In this paper, we present the Heterogeneous Graph Transformer (HGT) architecture for mod-eling Web-scale heterogeneous graphs. To model heterogeneity, we design node- and edge-type dependent parameters to charac-terize the heterogeneous attention over each edge, empowering HGT to maintain dedicated representations for different types of nodes and edges. To handle dynamic heterogeneous graphs, we in-troduce the relative temporal encoding technique into HGT, which is able to capture the dynamic structural dependency with arbitrary durations. To handle Web-scale graph data, we design the hetero-geneous mini-batch graph sampling algorithm—HGSampling—for efficient and scalable training. Extensive experiments on the Open Academic Graph of 179 million nodes and 2 billion edges show that the proposed HGT model consistently outperforms all the state-of-the-art GNN baselines by 9%–21%on various downstream tasks. The dataset and source code of HGT are publicly available at https://github.com/acbull/pyHGT.

第三个问题：请列出论文的全部作者，按照此格式：作者1, 作者2, 作者3。

Ziniu Hu, Yuxiao Dong, Kuansan Wang, Yizhou Sun

第四个问题：请直接告诉我这篇论文发表在哪个会议或期刊，请不要推理或提供额外信息。

Proceedings of The Web Conference 2020 (WWW ’20)

第五个问题：请详细描述这篇论文主要解决的核心问题，并用简洁的语言概述。

论文要解决的核心问题是：在Web级别的异构信息网络中，如何在不依赖手工meta paths的前提下，同时（1）刻画不同node/edge类型带来的分布差异与语义差异（heterogeneity），（2）刻画图随时间演化带来的结构依赖（dynamic），并且（3）在数亿节点、数十亿边上实现可扩展的GNN训练（scalability）。现有异构GNN往往只按node type或edge type单独建模、参数难以共享导致稀有关系学习不稳；对动态图常用“按时间切片建多个图”会丢失跨时间结构依赖；训练上直接全图传播不可行，现有采样在异构图上会产生类型极不均衡子图。简洁概述：提出一种以meta relation驱动的Transformer式异构注意力GNN，并配套相对时间编码与异构小批量采样，使其能在超大规模异构动态图上端到端学习表示并提升下游任务效果。

第六个问题：请告诉我这篇论文提出了哪些方法，请用最简洁的方式概括每个方法的核心思路。

HGT（Heterogeneous Graph Transformer）：用meta relation ⟨τ(s),φ(e),τ(t)⟩对注意力与消息传递参数进行分解与共享，构建异构multi-head mutual attention、异构message passing与target-specific aggregation（含残差）以生成上下文化表示。
Heterogeneous Mutual Attention：对不同node type使用不同的Key/Query线性投影，并对不同edge type使用W_ATT变换，再用meta-relation prior μ对注意力进行自适应缩放。
Heterogeneous Message Passing：对不同source node type使用不同的消息线性投影M-Linear，并用每种edge type的W_MSG注入关系语义，形成多头消息。
RTE（Relative Temporal Encoding）：用相对时间差∆T(t,s)=T(t)-T(s)查找/生成sinusoid basis并经线性层T-Linear映射，将RTE(∆T)加到source表示以建模任意跨度、可泛化到未见时间的动态依赖。
HGSampling：为每种node type维护独立budget并用归一化度数的importance sampling，采样出类型比例更均衡且更稠密的异构子图，用于mini-batch训练。
Inductive Timestamp Assignment：对无固定时间戳的plain nodes在采样时从相连event nodes继承时间戳，以支持动态建模。

第七个问题：请告诉我这篇论文所使用的数据集，包括数据集的名称和来源。

Open Academic Graph（OAG）：论文实验基础数据集，引用[16,20,28]，规模约178/179 million nodes与2.236/2 billion edges，时间跨度1900–2019。
Computer Science（CS）学术图：从OAG构建的领域子图。
Medicine（Med）学术图：从OAG构建的领域子图。代码与数据入口：论文给出公开仓库 https://github.com/acbull/pyHGT。

第八个问题：请列举这篇论文评估方法的所有指标，并简要说明这些指标的作用。

论文使用两类排序指标：NDCG（Normalized Discounted Cumulative Gain）：衡量排序结果在Top位置的相关性质量，对靠前位置赋予更高权重，适用于多标签/多候选的ranking式评估；MRR（Mean Reciprocal Rank）：对每个查询取正确答案排名的倒数再求均值，反映模型把正确答案排到前面的能力，常用于link prediction与候选排序任务。

第九个问题：请总结这篇论文实验的表现，包含具体的数值表现和实验结论。

总体结论：HGT在CS/Med/OAG三套大规模异构图、四个任务上，NDCG与MRR均显著且一致优于GCN/GAT/RGCN/HetGNN/HAN，并在参数量与batch time上优于多数异构GNN基线。关键数值（Table 2，均值±方差，列出HGT完整版 HGT(+RTE,+Heter) 与最佳基线HAN对比为主）：在OAG的Paper–Field(L1)上，HAN NDCG 0.544±0.096 / MRR 0.622±0.092，HGT达0.615±0.084 / 0.702±0.081；在OAG的Paper–Venue上，HAN NDCG 0.327±0.062 / MRR 0.214±0.067，HGT达0.355±0.062 / 0.247±0.061；在OAG的Author Disambiguation上，HAN NDCG 0.821±0.056 / MRR 0.660±0.049，HGT达0.852±0.048 / 0.688±0.054。CS数据集的Paper–Field(L1)上，HAN NDCG 0.618±0.058 / MRR 0.691±0.051，HGT达0.718±0.014 / 0.823±0.019；Med数据集的Paper–Field(L1)上，HAN NDCG 0.607±0.054 / MRR 0.575±0.057，HGT达0.709±0.029 / 0.688±0.048。消融：去掉异构参数化（HGT +RTE −Heter）相对完整版有约4%性能下降；去掉RTE（HGT −RTE +Heter）约2%下降。效率（表中示例）：在CS任务设置下，HGT参数量8.20M、batch time约1.50s，低于HAN的9.45M与2.27s，且优于RGCN/HetGNN的参数规模与速度。

第十个问题：请清晰地描述论文所作的工作，分别列举出动机和贡献点以及主要创新之处。

动机：1) 现实系统（学术网/社交网/经济网/IoT）天然是heterogeneous graphs，homogeneous GNN假设不成立；2) 既有异构方法依赖手工meta paths或仅按node/edge单维度建模，难同时捕获共享模式与特定模式；3) 真实图是dynamic heterogeneous graph，时间切片会丢失跨时间结构依赖；4) Web-scale规模下需要可扩展mini-batch训练，现有采样在异构图上会产生类型失衡与信息损失。贡献点：1) 提出HGT架构：以meta relation ⟨τ(s),φ(e),τ(t)⟩为核心进行参数分解与共享，定义异构mutual attention、message passing与target-specific aggregation，实现无需手工meta paths的端到端异构表示学习（隐式“soft meta paths”）。2) 提出RTE：基于相对时间差的时间编码机制，可建模任意时长、并泛化到未见时间戳/未来时间。3) 提出HGSampling与配套的inductive timestamp assignment：在Web级异构图上采样类型更均衡且更稠密的子图，支持高效mini-batch训练与动态图时间戳分配。4) 在OAG（179M/2B）及CS/Med子图上进行大规模实验，证明相对SOTA基线持续提升（论文总结为9%–21%）。主要创新之处：将Transformer式多头注意力与“基于meta relation的三元分解参数化（node-type投影 + edge-type变换 + meta-relation prior）”结合，实现更强的异构建模与更高的参数共享效率；同时把相对时间编码与异构专用采样机制纳入统一训练框架，使模型真正可落地于Web-scale异构动态图。

9.3 KiB Raw Blame History Unescape Escape

Heterogeneous Graph Transformer

9.3 KiB

Raw Blame History