GNN论文周报|来自新加坡国立大学、牛津大学、Mila实验室等机构前沿论文研究

图神经网络(GNN)是一类专门针对图结构数据的神经网络模型,在社交网络分析、知识图谱等领域中取得了不错的效果。近来,相关研究人员在GNN的可解释性、架构搜索、对比学习等方面做了很多探究。

本周精选了10篇GNN领域的优秀论文,来自新加坡国立大学、牛津大学、Mila实验室等机构。

为了方便大家阅读,只列出了论文标题、作者、ChatPaper综述等信息,如果感兴趣可点击链接查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。

1.DECOR: Degree-Corrected Social Graph Refinement for Fake News Detection

作者:Jiaying Wu,Bryan Hooi

链接:https://www.aminer.cn/pub/64a39885d68f896efa31df2b/

ChatPaper综述:这篇论文介绍了一种用于检测虚假新闻的新的社会图论方法,该方法利用度数纠正的分布式图模型 (Degree-Corrected Stochastic Blockmodels)。现有的虚假新闻检测方法通常使用固定的社会图结构,并假设这些结构准确地反映了相关的社交互动。然而,在真实世界中,边噪声仍然是一个关键挑战,因为训练基于劣等结构可能会严重限制 GNN 的表达能力。尽管先前的研究已经进行了图结构学习 (GSL),但这些方法通常使用节点特征来更新边权重,这使得它们难以应用于大型社会图。在本文中,我们提出了一种新的社会图论方法,用于检测虚假新闻。我们发现,新闻文章节点的度数表现出独特的模式,这些模式可以指示新闻的真实性。基于这一点,我们提出了 DECOR,一种新的分布式图模型,用于虚假新闻检测。具体而言,我们提出了一个轻量级的社会图改进组件,它通过迭代更新边权重,使用可学习的度数纠正掩码,并与基于 GNN 的检测器进行联合优化。通过在两个真实的基准数据集上进行广泛的实验,我们证明了 DECOR 的有效性和效率。

2.PlanE: Representation Learning over Planar Graphs

作者:Radoslav Dimitrov,Zeyang Zhao,Ralph Abboud,İsmail İlkan Ceylan

链接:https://www.aminer.cn/pub/64a39889d68f896efa31ec77/

ChatPaper综述:这篇论文介绍了 PlanE 框架,用于平面图形表示学习。Graph 神经网络是一种常见的图形表示学习模型,其思想是通过迭代计算输入图形的节点表示,使得学习到的图形函数在图形不相似时保持不变,从而学习到的表示也是图形不变式。然而,这种模型学到的图形不变式是不完全的,因为标准图神经网络无法区分一些非相似图形。这不足为奇,因为一般图形的图形相似性测试很困难。但是,对于像平面图形这样的特殊图形类,存在高效的图形相似性测试算法,因此这种情况有所不同。本文的目标是设计一种架构,能够快速学习平面图形的完整不变式。灵感来自 Hopcroft 和 Tarjan 提出的平面图形相似性算法,本文提出了 PlanE 框架,用于平面表示学习。PlanE 包括能够学习平面图形完整不变的模型架构,并且在实践中易于扩展。我们实证证明了这些模型架构在知名的平面图形基准集上取得了最先进的性能。

3.Temporal Graph Benchmark for Machine Learning on Temporal Graphs

作者:Shenyang Huang,Farimah Poursafaei,Jacob Danovitch,Matthias Fey,Weihua Hu,Emanuele Rossi,Jure Leskovec,Michael Bronstein,Guillaume Rabusseau,Reihaneh Rabbany

链接:https://www.aminer.cn/pub/64a39889d68f896efa31ebb2/

ChatPaper综述:这篇论文介绍了一个名为 Temporal Graph Benchmark(TGB) 的基准测试集,这是一个具有挑战性和多样化的基准测试集,用于在时间图模型中进行机器学习模型的逼真、可重复和稳健的评估。TGB 基准测试集包括大规模时间图数据集,持续时间长达数年,涵盖了多个领域,如社交、贸易、交易和运输网络。对于两个任务,我们设计了基于实际应用场景的评估协议。我们对每个数据集进行了全面基准测试,并发现不同数据集上的常见模型的性能差异很大。此外,在动态节点属性预测任务中,我们表明简单的方法往往比现有的时间图模型表现更好。我们相信这些发现为时间图模型的研究开启了新的机会。最后,TGB 提供了自动化机器学习管道,包括数据加载、实验设计和性能评估,可重复和易于访问。TGB 将定期维护和更新,并欢迎社区反馈。TGB 数据集、数据加载器、示例代码、评估设置和排行榜均公开可用,网址为 https://tgb.complexdatalab.com/。

4.InferTurbo: A Scalable System for Boosting Full-graph Inference of Graph Neural Network over Huge Graphs

作者:Dalong Zhang,Xianzheng Song,Zhiyang Hu,Yang Li,Miao Tao,Binbin Hu,Lin Wang,Zhiqiang Zhang,Jun Zhou

链接:https://www.aminer.cn/pub/64a39885d68f896efa31dfd5/

ChatPaper综述:这篇论文描述了一种名为 InferTurbo 的可扩展系统,用于加速大型图形神经网络的推理任务。在工业应用场景中,处理巨大图形的挑战包括全图推理的可扩展性、基于采样的加速策略导致的不一致性和严重的冗余计算问题。为了解决这些问题,作者提出了一种名为 GAS-like (Gather-Apply-Scatter) 的 schema,用于描述 GNN 推理的计算模式和数据流。该算法通过迭代方式表示 GNN 的运算,每个节点通过收集输入消息更新状态信息,并将更新的信息传递给其他节点。此外,作者还提出了一些策略,如 shadow-nodes 和 partial-gather,用于处理高度节点,以更好地平衡负载。使用 InferTurbo,可以分层进行 GNN 推理,无需采样和冗余计算。实验结果表明,该系统对包含高度节点的图形推理任务具有鲁棒性和高效性,与传统的推理流程相比,可以在 2 小时内完成对数十亿节点和数百亿边的大型图形的 GNN 推理任务。

5.Optimizing protein fitness using Gibbs sampling with Graph-based Smoothing

作者:Andrew Kirjner,Jason Yim,Raman Samusevich,Tommi Jaakkola,Regina Barzilay,Ila Fiete

链接:https://www.aminer.cn/pub/64a39885d68f896efa31e118/

ChatPaper综述:这篇论文介绍了一种使用 Gibbs 采样和基于图的平滑技术的优化蛋白质适应度的方法。该方法迭代应用 Gibbs 采样和梯度,以提出有利的突变,并使用基于图的平滑技术来消除导致假阳性的噪声梯度。该方法在训练集中发现了具有 8 个突变的高适应度蛋白质,结果表明该方法是目前发现高适应度蛋白质的最佳方法之一。此外,我们还研究了 GFP 和 AAV 设计问题,并对结果进行了分析和基准测试。

6.Graphtester: Exploring Theoretical Boundaries of GNNs on Graph Datasets

作者:Eren Akbiyik,Florian Grötschla,Beni Egressy,Roger Wattenhofer

链接:https://www.aminer.cn/pub/64a2471bd68f896efaa52443/

ChatPaper综述:这篇论文介绍了一种名为 Graphtester 的新工具,用于全面分析 GNN 在各种数据集、任务和评分标准下的理论基础。作者使用了超过 40 个不同图形数据集进行分析,并根据层数确定了各种 GNN 的性能上限。此外,作者还展示了 Graphtester 可以用于 Graph Transformers,并扩展了其应用范围。最后,作者展示了 Graphtester 生成的特征可以用于实际应用程序,如 Graph Transformers,并提供了用于测试节点和边特征,如位置编码的人造数据集。

7.SaGess: Sampling Graph Denoising Diffusion Model for Scalable Graph Generation

作者:Stratis Limnios,Praveen Selvaraj,Mihai Cucuringu,Carsten Maple,Gesine Reinert,Andrew Elliott

链接:https://www.aminer.cn/pub/649e52c5d68f896efae48792/

ChatPaper综述:这篇论文提出了一种名为 SaGess 的分布式降噪扩散方法,用于生成大规模真实世界网络。该方法通过将扩散模型 (DiGress) 与通用分治框架相结合,能够生成更大的初始网络。算法通过从初始网络中采样覆盖的子图来训练 DiGress,然后使用 DiGress 生成的子图来构建合成网络。我们比较了原始网络和合成网络的统计指标,并使用合成数据集训练了链接预测任务。在实验中,SaGess 在 graph metrics 和 link prediction task 方面远远优于大多数单点先进的图形生成方法。

8.Graph Sampling-based Meta-Learning for Molecular Property Prediction

作者:Xiang Zhuang,Qiang Zhang,Bin Wu,Keyan Ding,Yin Fang,Huajun Chen

链接:https://www.aminer.cn/pub/6467125fd68f896efaf1440e/

ChatPaper综述:这篇论文描述了一种用于分子属性预测的图采样元学习框架。通常情况下,分子属性只有少数样本观察,因此研究人员将其视为少样本问题。然而,之前的工作忽略了一个重要的事实,即每个分子可以同时记录多种属性。为了充分利用分子和属性之间的多对多关系,我们提出了一种名为 Graph Sampling-based Meta-learning(GS-Meta) 的框架,用于少样本分子属性预测。首先,我们构建了一个分子属性关系图 (MPG),其中分子和属性是节点,而属性标签决定它们之间的边。为了利用 MPG 的拓扑信息,我们将元学习 episode 重构为 MPG 中的一个子图,包含目标属性节点、分子节点和辅助属性节点。其次,由于子图的形式不再是独立的,因此我们提出了一种对比损失函数来安排子图采样过程,以考虑子图的一致性和差异性。广泛的实验结果表明,GS-Meta 比最先进的方法在 ROC-AUC 指标上平均领先 5.71%-6.93%。此外,我们还证明了每个提出的模块的有效性。

9.LMBot: Distilling Graph Knowledge into Language Model for Graph-less Deployment in Twitter Bot Detection

作者:Zijian Cai,Zhaoxuan Tan,Zhenyu Lei,Hongrui Wang,Zifeng Zhu,Qinghua Zheng,Minnan Luo

链接:https://www.aminer.cn/pub/64a2471bd68f896efaa523f1/

ChatPaper综述:这篇论文提出了一种名为 LMBot 的新 bot 检测框架,该框架将图神经网络的知识传递给语言模型,以实现 graph-less 部署,解决数据依赖性挑战。LMBot 适用于 graph-based 和 graph-less 数据集,可以将用户表示为文本序列,并使用语言模型进行领域适应。对于 graph-based 数据集,LMBot 的输出为 GNN 的输入特征,使其优化于 bot 检测,并将知识回传给语言模型。利用语言模型,LMBot 可以实现无图结构的推理,解决了数据依赖性和采样偏差问题。对于无图结构的数据集,LMBot 可以替换为 MLP,同样表现出强大的性能。实验结果表明,LMBot 在四个 Twitter bot 检测基准数据集上取得了最先进的性能,并且比基于图的 Twitter bot 检测方法更加鲁棒、灵活和高效。

10.Graph Denoising Diffusion for Inverse Protein Folding

作者:Kai Yi,Bingxin Zhou,Yiqing Shen,Pietro Liò,Yu Guang Wang

链接:https://www.aminer.cn/pub/649e52c5d68f896efae48789/

资源下载: