GraphSR: A Data Augmentation Algorithm for Imbalanced Node Classification

要約

グラフ ニューラル ネットワーク (GNN) は、ノード分類タスクで大きな成功を収めています。
ただし、既存の GNN は当然、ラベル付けされたデータが多い多数派クラスに偏り、ラベル付けされたデータが比較的少ない少数派クラスを無視します。
従来の手法では、オーバー サンプリング手法に頼ることがよくありますが、オーバーフィッティングの問題が発生する可能性があります。
最近では、ラベル付けされたノードからマイノリティ クラスの追加ノードを合成することを提案する研究もありますが、これらの生成されたノードが対応するマイノリティ クラスを本当に表しているかどうかは保証されません。
実際、不適切に合成されたノードは、アルゴリズムの一般化が不十分になる可能性があります。
この問題を解決するために、この論文では、グラフの大量のラベル付けされていないノードから少数派クラスを自動的に拡張しようとします。
具体的には、\textit{GraphSR} を提案します。これは、類似性ベースの選択モジュールと強化学習 (RL) 選択モジュールに基づく、ラベル付けされていないノードの有意な多様性で少数派クラスを増強するための新しい自己トレーニング戦略です。
最初のモジュールは、ラベル付けされたマイノリティ ノードに最も類似するラベル付けされていないノードのサブセットを見つけ、2 番目のモジュールはさらに、RL 手法を介してサブセットから代表的で信頼できるノードを決定します。
さらに、RL ベースのモジュールは、現在のトレーニング データに従ってサンプリング スケールを適応的に決定できます。
この戦略は一般的であり、さまざまな GNN モデルと簡単に組み合わせることができます。
私たちの実験は、提案されたアプローチが、さまざまなクラスの不均衡なデータセットで最先端のベースラインよりも優れていることを示しています。

要約(オリジナル)

Graph neural networks (GNNs) have achieved great success in node classification tasks. However, existing GNNs naturally bias towards the majority classes with more labelled data and ignore those minority classes with relatively few labelled ones. The traditional techniques often resort over-sampling methods, but they may cause overfitting problem. More recently, some works propose to synthesize additional nodes for minority classes from the labelled nodes, however, there is no any guarantee if those generated nodes really stand for the corresponding minority classes. In fact, improperly synthesized nodes may result in insufficient generalization of the algorithm. To resolve the problem, in this paper we seek to automatically augment the minority classes from the massive unlabelled nodes of the graph. Specifically, we propose \textit{GraphSR}, a novel self-training strategy to augment the minority classes with significant diversity of unlabelled nodes, which is based on a Similarity-based selection module and a Reinforcement Learning(RL) selection module. The first module finds a subset of unlabelled nodes which are most similar to those labelled minority nodes, and the second one further determines the representative and reliable nodes from the subset via RL technique. Furthermore, the RL-based module can adaptively determine the sampling scale according to current training data. This strategy is general and can be easily combined with different GNNs models. Our experiments demonstrate the proposed approach outperforms the state-of-the-art baselines on various class-imbalanced datasets.

arxiv情報

著者 Mengting Zhou,Zhiguo Gong
発行日 2023-02-24 18:49:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク