要約
グラフ ニューラル ネットワーク (GNN) は、複雑な依存関係やノード間の関係を捕捉する能力により、グラフ構造データからの学習において顕著な成功を収めています。
これらは、半教師ありノード分類、リンク予測、グラフ生成などのさまざまなアプリケーションで優れています。
ただし、最先端の GNN モデルの大部分は分布内設定を前提として構築されており、動的構造を持つ現実世界のグラフでのパフォーマンスが妨げられることを認識することが重要です。
この記事では、グラフの局所的なサブセットに対する GNN のトレーニングの影響を評価することを目的としています。
このような制限されたトレーニング データにより、モデルがトレーニングされた特定の領域ではうまく機能するものの、グラフ全体を一般化して正確に予測できない可能性があります。
グラフベースの半教師あり学習 (SSL) のコンテキストでは、リソースの制約により、データセットが大きいにもかかわらずラベル付けできるのはその一部だけであり、モデルのパフォーマンスに影響を与えるシナリオが発生することがよくあります。
この制限は、ラベル付けプロセスに偏りや人間の主観の影響がある場合、異常検出やスパム検出などのタスクに影響します。
局所的なトレーニング データによってもたらされる課題に取り組むために、ラベル付きデータのごく一部を表すトレーニング データと、グラフ全体の予測を行うグラフ推論プロセスの間の分布を調整することで、分布外 (OOD) データの問題としてこの問題にアプローチします。
局所的なトレーニング データとグラフ推論の間の分布の不一致を最小限に抑え、OOD データでのモデルのパフォーマンスを向上させる正則化方法を提案します。
人気の GNN モデルに対する広範なテストにより、3 つの引用 GNN ベンチマーク データセットで大幅なパフォーマンスの向上が示されました。
正則化アプローチはモデルの適応と一般化を効果的に強化し、OOD データによってもたらされる課題を克服します。
要約(オリジナル)
Graph Neural Networks (GNNs) have achieved notable success in learning from graph-structured data, owing to their ability to capture intricate dependencies and relationships between nodes. They excel in various applications, including semi-supervised node classification, link prediction, and graph generation. However, it is important to acknowledge that the majority of state-of-the-art GNN models are built upon the assumption of an in-distribution setting, which hinders their performance on real-world graphs with dynamic structures. In this article, we aim to assess the impact of training GNNs on localized subsets of the graph. Such restricted training data may lead to a model that performs well in the specific region it was trained on but fails to generalize and make accurate predictions for the entire graph. In the context of graph-based semi-supervised learning (SSL), resource constraints often lead to scenarios where the dataset is large, but only a portion of it can be labeled, affecting the model’s performance. This limitation affects tasks like anomaly detection or spam detection when labeling processes are biased or influenced by human subjectivity. To tackle the challenges posed by localized training data, we approach the problem as an out-of-distribution (OOD) data issue by by aligning the distributions between the training data, which represents a small portion of labeled data, and the graph inference process that involves making predictions for the entire graph. We propose a regularization method to minimize distributional discrepancies between localized training data and graph inference, improving model performance on OOD data. Extensive tests on popular GNN models show significant performance improvement on three citation GNN benchmark datasets. The regularization approach effectively enhances model adaptation and generalization, overcoming challenges posed by OOD data.
arxiv情報
著者 | Singh Akansha |
発行日 | 2023-07-24 11:04:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google