700字范文 > 【每日一读】ALG: Fast and Accurate Active Learning Framework for Graph Convolutional Networks

【每日一读】ALG: Fast and Accurate Active Learning Framework for Graph Convolutional Networks

时间：2022-09-12 18:34:08

相关推荐

Spatio-Temporal Graph Convolutional Networks: A Deep Learning Framework for Traffic
-ACS-IGN: A Novel and Efficient Deep Graph Representation Learning Framework for Accurate
FastGCNL:FAST LEARNING WITH GRAPH CONVOLUTIONAL NETWORKS VIA IMPORTANCE SAMPLING
A novel framework for detecting social bots with deep neural networks and active learning（SCI一区）

简介

Hello！
非常感谢您阅读海轰的文章，倘若文中有错误的地方，欢迎您指出～
ଘ(੭ˊᵕˋ)੭
昵称：海轰
标签：程序猿｜C++选手｜学生
简介：因C语言结识编程，随后转入计算机专业，获得过国家奖学金，有幸在竞赛中拿过一些国奖、省奖…已保研
学习经验：扎实基础 + 多做笔记 + 多敲代码 + 多思考 + 学好英语！
唯有努力💪
【每日一读】每天浅读一篇论文，了解专业前沿知识，培养阅读习惯（阅读记录仅供参考）

简介

原文链接：/doi/10.1145/3448016.3457325

会议：SIGMOD '21: Proceedings of the International Conference on Management of Data（CCF A类）

年度：6月18日

ABSTRACT

图卷积网络 (GCN) 已成为许多监督和半监督图表示学习场景中最先进的方法

为了达到令人满意的性能，GCN 需要足够数量的标记数据

然而，在现实世界的场景中，标记数据的获取成本通常很高。因此，我们提出了 ALG，这是一种用于 GCN 的新型主动学习框架，与通用 AL 框架相比，它采用特定领域的智能来实现更高的性能和效率

首先，通过解耦 GCN 模型，ALG 作为一个有效和高效的 AL 框架来衡量和结合节点的代表性和信息性其次，通过利用 GCN 中接收场的特性，ALG 通过提出最大化有效接收场（ERF）的新节点选择度量来考虑节点的重要性和相关性

我们证明了这个 ERF 最大化问题是 NP-hard 问题，并提供了一种有效的算法，并带有可证明的近似保证。对四个公共数据集的实证研究表明，ALG 可以显着提高 GCN 主动学习的性能和效率。

1 INTRODUCTION

最近，图卷积网络 (GCN) [16] 及其变体在节点分类 [16, 28, 39, 48] 和链接预测 [13, 17, 42, 43] 等许多应用中取得了巨大成功

为了达到令人满意的性能，GCN 需要足够数量的标记数据 [48]

然而，在现实世界的场景中，数据标记通常涉及不可忽略的人工，从而导致高标记成本 [10]。

具体来说，标记成本与标记实例的数量成正比
例如，在亚马逊的 Mechanical Turk (MTurk) [20, 35] 中，每个标记实例的人群成本至少为 0.05 美元，更不用说昂贵的专家了
因此，手动标记所有实例进行训练是不适用的。鉴于标签预算有限，从基础数据中选择性能最佳的实例来标签 [5] 是很有趣的
但是这样的选择是困难的，因为不同的标记训练实例集会导致不同的性能。

为了应对这一挑战，主动学习 (AL) [25, 34, 40] 提供了通过集成数据标记和模型训练来选择有价值示例的解决方案

具体来说，AL 通过在小标记数据池上重复训练模型并根据不同的查询启发式方法（例如不确定性 [44、50] 和信息密度）选择要标记的示例，以交互方式从大量未标记数据中选择示例进行标记[1、14、22]

然而，传统的 AL 策略是为独立同分布 (i.i.d) 数据 [7, 9] 上的学习模型而设计的，而图结构数据不是 i.i.d，因为图中的连接节点更有可能共享相同的标签

因此，将这些 AL 策略 [4, 50] 应用于 GCN 无法捕捉 GCN 的图结构和特征，从而导致性能欠佳 [5, 11, 24]

此外，GCN 涉及一个昂贵的递归邻域扩展，它计算每个节点的嵌入 [21, 33]

对于大图，现有的 AL 框架存在效率和可扩展性问题 [49]，这需要大量的计算资源来训练 GCN

在本文中，我们提出了 ALG，一种新颖的 GCN 主动学习框架

ALG 的新颖之处在于通过利用 GCN 的几个特征从根本上提高主动学习的性能和效率

我们观察到 GCN 中的图卷积操作可以解耦为无模型的特征聚合操作和依赖模型的神经更新操作，这促使我们将这两个操作分开以提高效率

此外，只有 ?标记节点的 -hop 邻域可能有助于训练 ?层 GCN [19]。这个？ -hop 邻域被称为节点的接收场 (RF) [32]

GCN 的这一特性促使我们引入与半监督图学习的特性相一致的新 AL 选择原则

据我们所知，ALG 是第一个结合主动学习和 GCN 解决性能和效率问题的框架。本文的贡献总结如下：

C1。有效接收场 (ERF)。我们是第一个在 GCN 的 AL 中提出 ERF 概念的人。基于 ERF，我们进一步为 GCN 提出了一种全新的 AL 选择标准：我们最大化所选节点的“影响”，以使更多未标记的节点参与训练，而目前仅考虑单个实例的信息性或代表性。传统的 AL 社区。我们证明了所提出的问题是 NPhard，并提供了一种简单而有效的贪心算法，具有可证明的近似保证。C2。无模型且经济高效的测量。通过解耦 GCN，我们率先提出了基于图的 AL 的无模型代表性，并利用多层感知器 (MLP) 以具有成本效益的方式近似计算信息量。此外，由于信息量对模型很敏感，而代表性则不然，我们引入了一种自适应组合机制来提高性能和效率。C3。最先进的性能。对四个节点分类基准数据集的实证评估表明，ALG 在预测准确度方面优于最先进的方法 AGE 和 ANRMAB 0.72.3% 和 0.8%-2.9%，同时达到 44 倍和 692 倍的端到端运行时加速。