要約
教師なしグラフ表現学習の主な利点は、データやラベルが不足している場合でも、事前トレーニングされたモデルを微調整できることです。
既存のアプローチはドメイン固有であり、事前トレーニング データセットとターゲット データセット全体で一貫したノードとエッジの属性を維持します。
これにより、他のドメインへの転送ができなくなります。
任意のタスクおよびドメインで正の転送が可能なモデルは、最初の基礎グラフ モデルを表します。
この研究では、敵対的対照学習を使用して、ノードとエッジの特徴の除外に基づくグラフ事前トレーニング手法である FoToM を提示します。
FoToM を使用して複数のグラフ ドメインにわたってモデルを事前トレーニングし、最初の基礎グラフ モデルを生成します。
トレーニング前のデータに存在しないドメインを含む、複数のドメインからの評価データセットでの確実な転送を実証します。
すべてのデータセットのパフォーマンスは最悪でも同等で、教師ありベースライン ($P \leq 0.01$) よりも 76% 大幅に向上しており、95% の信頼度で誤差が 8 ~ 40% 減少しています。
他の研究とは対照的に、ターゲット ドメインを除外したデータセットで事前トレーニングを行うと、ターゲット ドメインのみのデータセットで事前トレーニングを行うよりも優れたパフォーマンスが得られます。
マルチドメイン モデルは最悪の場合でも一致し、タスクの 56% ではシングルドメイン モデルを大幅に上回ります ($P \leq 0.01$)。
これらの結果には、評価にノード ラベルが使用された場合が含まれており、単一ドメインまたは事前トレーニングされていないモデルよりもパフォーマンスが一貫して優れています。
特に、FoToM は、ターゲット ドメインの大規模データ領域または希少データ領域の両方のシナリオに利点をもたらします。
要約(オリジナル)
The principal benefit of unsupervised graph representation learning is that a pre-trained model can be fine-tuned where data or labels are scarce. Existing approaches are domain specific, maintaining consistent node and edge attributes across the pre-training and target datasets. This precludes transfer to other domains. A model capable of positive transfer on arbitrary tasks and domains would represent the first foundation graph model. In this work we use adversarial contrastive learning to present FoToM, a graph pre-training method based on node and edge feature exclusion. We use FoToM to pre-train models over multiple graph domains, producing the first foundation graph models. We demonstrate positive transfer on evaluation datasets from multiple domains, including domains not present in pre-training data. On all datasets performance is at worst on-par and on 76% significantly better than a supervised baseline ($P \leq 0.01$), with an 8 to 40% reduction in error at 95% confidence. Contrary to other research, pre-training on a dataset with the target domain excluded leads us to better performance than pre-training on a dataset from only the target domain. The multi-domain model at worst, matches, and on 56% of tasks, significantly outperforms single-domain ($P \leq 0.01$). These results include when node labels are used in evaluation, where performance is consistently superior to single-domain or non-pre-trained models. Notably, FoToM benefits scenarios in both large or scarce data regimes for the target domains.
arxiv情報
著者 | Alex O. Davies,Riku W. Green,Nirav S. Ajmeri,Telmo M. Silva Filho |
発行日 | 2024-01-19 14:34:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google