A Foundation Graph Model

要約

教師なしグラフ表現学習の主な利点は、データやラベルが不足している場合でも、事前トレーニングされたモデルを微調整できることです。
既存のアプローチはドメイン固有であり、事前トレーニング データセットとターゲット データセット全体で一貫したノードとエッジの属性を維持します。
これにより、他のドメインへの転送ができなくなります。
任意のタスクおよびドメインで正の転送が可能なモデルは、最初の基礎グラフ モデルを表します。
この研究では、敵対的対照学習を使用して、ノードとエッジの特徴の除外に基づくグラフ事前トレーニング手法である FoToM を提示します。
FoToM を使用して複数のグラフ ドメインにわたってモデルを事前トレーニングし、最初の基礎グラフ モデルを生成します。
トレーニング前のデータに存在しないドメインを含む、複数のドメインからの評価データセットでの確実な転送を実証します。
すべてのデータセットのパフォーマンスは最悪でも同等で、教師ありベースライン ($P \leq 0.01$) よりも 76% 大幅に向上しており、95% の信頼度で誤差が 8 ~ 40% 減少しています。
他の研究とは対照的に、ターゲット ドメインを除外したデータセットで事前トレーニングを行うと、ターゲット ドメインのみのデータセットで事前トレーニングを行うよりも優れたパフォーマンスが得られます。
マルチドメイン モデルは最悪の場合でも一致し、タスクの 56% ではシングルドメイン モデルを大幅に上回ります ($P \leq 0.01$)。
これらの結果には、評価にノード ラベルが使用された場合が含まれており、単一ドメインまたは事前トレーニングされていないモデルよりもパフォーマンスが一貫して優れています。
特に、FoToM は、ターゲット ドメインの大規模データ領域または希少データ領域の両方のシナリオに利点をもたらします。

要約(オリジナル)

The principal benefit of unsupervised graph representation learning is that a pre-trained model can be fine-tuned where data or labels are scarce. Existing approaches are domain specific, maintaining consistent node and edge attributes across the pre-training and target datasets. This precludes transfer to other domains. A model capable of positive transfer on arbitrary tasks and domains would represent the first foundation graph model. In this work we use adversarial contrastive learning to present FoToM, a graph pre-training method based on node and edge feature exclusion. We use FoToM to pre-train models over multiple graph domains, producing the first foundation graph models. We demonstrate positive transfer on evaluation datasets from multiple domains, including domains not present in pre-training data. On all datasets performance is at worst on-par and on 76% significantly better than a supervised baseline ($P \leq 0.01$), with an 8 to 40% reduction in error at 95% confidence. Contrary to other research, pre-training on a dataset with the target domain excluded leads us to better performance than pre-training on a dataset from only the target domain. The multi-domain model at worst, matches, and on 56% of tasks, significantly outperforms single-domain ($P \leq 0.01$). These results include when node labels are used in evaluation, where performance is consistently superior to single-domain or non-pre-trained models. Notably, FoToM benefits scenarios in both large or scarce data regimes for the target domains.

arxiv情報

著者 Alex O. Davies,Riku W. Green,Nirav S. Ajmeri,Telmo M. Silva Filho
発行日 2024-01-19 14:34:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク