Graph Out-of-Distribution Generalization with Controllable Data Augmentation

要約

グラフ ニューラル ネットワーク (GNN) は、グラフ プロパティの分類において並外れたパフォーマンスを実証しました。
ただし、トレーニング データとテスト データの選択バイアス (小さなグラフでのトレーニングと大きなグラフでのテスト、または密なグラフでのトレーニングと疎なグラフでのテストなど) により、分布の偏りは広範囲に及んでいます。
さらに重要なことは、データ分割が片側に偏っているにもかかわらず、スケールと密度の両方で \emph{ハイブリッド構造分布のシフト} が観察されることがよくあることです。
ハイブリッド分布偏差に関する偽の相関は、以前の GNN 手法のパフォーマンスを低下させ、異なるデータセット間で大きな不安定性を示します。
この問題を軽減するために、私たちは \texttt{OOD-GMixup} を提案し、計量空間で \emph{制御可能なデータ拡張} を使用して学習分布を共同操作します。
具体的には、まずグラフの根拠を抽出して、無関係な情報による偽の相関を排除します。
次に、潜在的な OOD トレーニング サンプルを取得するために、グラフ理論的表現ドメインに摂動を加えた仮想サンプルを生成します。
最後に、極値理論を利用して仮想サンプルの分布偏差を測定し、仮想 OOD サンプルの影響を強調することでトレーニング分布をさらにアクティブに制御する OOD キャリブレーションを提案します。
グラフ分類に関するいくつかの実世界のデータセットに関する広範な研究により、私たちが提案する方法が最先端のベースラインよりも優れていることが実証されています。

要約(オリジナル)

Graph Neural Network (GNN) has demonstrated extraordinary performance in classifying graph properties. However, due to the selection bias of training and testing data (e.g., training on small graphs and testing on large graphs, or training on dense graphs and testing on sparse graphs), distribution deviation is widespread. More importantly, we often observe \emph{hybrid structure distribution shift} of both scale and density, despite of one-sided biased data partition. The spurious correlations over hybrid distribution deviation degrade the performance of previous GNN methods and show large instability among different datasets. To alleviate this problem, we propose \texttt{OOD-GMixup} to jointly manipulate the training distribution with \emph{controllable data augmentation} in metric space. Specifically, we first extract the graph rationales to eliminate the spurious correlations due to irrelevant information. Secondly, we generate virtual samples with perturbation on graph rationale representation domain to obtain potential OOD training samples. Finally, we propose OOD calibration to measure the distribution deviation of virtual samples by leveraging Extreme Value Theory, and further actively control the training distribution by emphasizing the impact of virtual OOD samples. Extensive studies on several real-world datasets on graph classification demonstrate the superiority of our proposed method over state-of-the-art baselines.

arxiv情報

著者 Bin Lu,Xiaoying Gan,Ze Zhao,Shiyu Liang,Luoyi Fu,Xinbing Wang,Chenghu Zhou
発行日 2023-08-16 13:10:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SI パーマリンク