Gradient scarcity with Bilevel Optimization for Graph Learning


この現象は、共同最適化アルゴリズムを使用してグラフ ニューラル ネットワーク (GCN) のグラフと重みを最適化するときに最初に説明されました。
GCN では、有限の受容野が原因で勾配不足が発生しますが、ラプラシアン正則化モデルでも発生することを示します。これは、ラベル付けされたノードまでの距離に応じて勾配振幅が指数関数的に減少するという意味です。
この問題を軽減するために、私たちはいくつかの解決策を研究しています: Graph-to-Graph モデル (G2G) を使用した潜在グラフ学習、グラフの正則化によるグラフの事前構造の強制、または元のグラフよりも大きなグラフでの最適化に頼ることを提案します。


A common issue in graph learning under the semi-supervised setting is referred to as gradient scarcity. That is, learning graphs by minimizing a loss on a subset of nodes causes edges between unlabelled nodes that are far from labelled ones to receive zero gradients. The phenomenon was first described when optimizing the graph and the weights of a Graph Neural Network (GCN) with a joint optimization algorithm. In this work, we give a precise mathematical characterization of this phenomenon, and prove that it also emerges in bilevel optimization, where additional dependency exists between the parameters of the problem. While for GCNs gradient scarcity occurs due to their finite receptive field, we show that it also occurs with the Laplacian regularization model, in the sense that gradients amplitude decreases exponentially with distance to labelled nodes. To alleviate this issue, we study several solutions: we propose to resort to latent graph learning using a Graph-to-Graph model (G2G), graph regularization to impose a prior structure on the graph, or optimizing on a larger graph than the original one with a reduced diameter. Our experiments on synthetic and real datasets validate our analysis and prove the efficiency of the proposed solutions.


著者 Hashem Ghanem,Samuel Vaiter,Nicolas Keriven
発行日 2023-03-24 12:37:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.LG パーマリンク