要約
この論文では、グラフ機械学習における分布外 (OOD) 一般化の課題について取り上げます。この分野は急速に進歩しているものの、ソース データ分布とターゲット データ分布の間の不一致に取り組んでいます。
従来のグラフ学習アルゴリズムは、トレーニング データとテスト データ間の一様な分布の仮定に基づいており、この仮定が崩れる現実のシナリオでは機能不全に陥り、最適なパフォーマンスが得られません。
この次善のパフォーマンスに寄与する主な要因は、確率的勾配降下法 (SGD) を通じてトレーニングされたニューラル ネットワークに固有の単純性バイアスです。SGD は、より複雑ではあるが同等またはより予測性の高い特徴よりも単純な特徴を好みます。
このバイアスは偽の相関への依存につながり、画像認識、自然言語理解、グラフ分類などのさまざまなタスクにおける OOD パフォーマンスに悪影響を及ぼします。
サブグラフの混合や情報ボトルネックのアプローチを含む現在の方法論は、部分的には成功を収めていますが、単純性バイアスを克服するのに苦労しており、偽の相関関係を強化することがよくあります。
これに取り組むために、私たちは DIVE を提案します。これは、サブグラフ マスクでの発散を促進するようにモデルを奨励することで、すべてのラベル予測サブグラフに焦点を当てるようにモデルのコレクションをトレーニングします。これにより、単純な構造パターンに対応するサブグラフのみに焦点を当てたモデルの制限が回避されます。
。
具体的には、正則化機能を使用してモデル間で抽出されたサブグラフの重複を罰し、それによって異なるモデルが異なる構造パターンに集中することを奨励します。
堅牢な OOD パフォーマンスのためのモデル選択は、検証精度によって実現されます。
GOOD ベンチマークの 4 つのデータセットと DrugOOD ベンチマークの 1 つのデータセットでテストしたところ、私たちのアプローチは既存の手法を大幅に改善し、単純性バイアスに効果的に対処し、グラフ機械学習の一般化を強化したことを示しています。
要約(オリジナル)
This paper addresses the challenge of out-of-distribution (OOD) generalization in graph machine learning, a field rapidly advancing yet grappling with the discrepancy between source and target data distributions. Traditional graph learning algorithms, based on the assumption of uniform distribution between training and test data, falter in real-world scenarios where this assumption fails, resulting in suboptimal performance. A principal factor contributing to this suboptimal performance is the inherent simplicity bias of neural networks trained through Stochastic Gradient Descent (SGD), which prefer simpler features over more complex yet equally or more predictive ones. This bias leads to a reliance on spurious correlations, adversely affecting OOD performance in various tasks such as image recognition, natural language understanding, and graph classification. Current methodologies, including subgraph-mixup and information bottleneck approaches, have achieved partial success but struggle to overcome simplicity bias, often reinforcing spurious correlations. To tackle this, we propose DIVE, training a collection of models to focus on all label-predictive subgraphs by encouraging the models to foster divergence on the subgraph mask, which circumvents the limitation of a model solely focusing on the subgraph corresponding to simple structural patterns. Specifically, we employs a regularizer to punish overlap in extracted subgraphs across models, thereby encouraging different models to concentrate on distinct structural patterns. Model selection for robust OOD performance is achieved through validation accuracy. Tested across four datasets from GOOD benchmark and one dataset from DrugOOD benchmark, our approach demonstrates significant improvement over existing methods, effectively addressing the simplicity bias and enhancing generalization in graph machine learning.
arxiv情報
著者 | Xin Sun,Liang Wang,Qiang Liu,Shu Wu,Zilei Wang,Liang Wang |
発行日 | 2024-08-08 12:08:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google