要約
教師なし表現学習の主な利点は、データやラベルが不足している場合でも、事前トレーニングされたモデルを微調整できることです。
グラフ表現学習の既存のアプローチはドメイン固有であり、事前トレーニング データセットとターゲット データセット全体で一貫したノードとエッジの特徴を維持します。
これにより、複数のドメインへの転送ができなくなりました。
ノードとエッジの特徴の除外に基づくグラフの事前トレーニング方法であるトポロジーのみの事前トレーニング (ToP) を紹介します。
我々は、トレーニング前データに存在しないドメインを含む、複数のドメインからの評価データセットでのポジティブな転送を示しており、現代の研究でなされた仮定に真っ向から反しています。
実験の 75% で、ToP モデルは教師ありベースラインよりも $p \leq 0.01$ 大幅に優れたパフォーマンスを示しました。
ノードとエッジの機能を微調整に使用すると、85.7% のタスクでパフォーマンスが大幅に向上しました。
さらに、ドメイン外トポロジの方がドメイン内よりも有用な事前トレーニングを生成できることを示します。
ToP では、分子ベンチマークの 79% において、分子の事前トレーニングと比較して、非分子の事前トレーニングからの移行が良好であることが示されています。
ToP は、他のジェネラリスト グラフ モデルの限られたセットに対して、桁違いに大きいモデルに対しても強力にパフォーマンスを発揮します。
これらの発見は、ToP が人口の少ないグラフ ドメインでの転移学習とグラフ基礎モデルの両方において幅広い研究領域を開くことを示しています。
要約(オリジナル)
The principal benefit of unsupervised representation learning is that a pre-trained model can be fine-tuned where data or labels are scarce. Existing approaches for graph representation learning are domain specific, maintaining consistent node and edge features across the pre-training and target datasets. This has precluded transfer to multiple domains. We present Topology Only Pre-Training (ToP), a graph pre-training method based on node and edge feature exclusion. We show positive transfer on evaluation datasets from multiple domains, including domains not present in pre-training data, running directly contrary to assumptions made in contemporary works. On 75% of experiments, ToP models perform significantly $p \leq 0.01$ better than a supervised baseline. Performance is significantly positive on 85.7% of tasks when node and edge features are used in fine-tuning. We further show that out-of-domain topologies can produce more useful pre-training than in-domain. Under ToP we show better transfer from non-molecule pre-training, compared to molecule pre-training, on 79% of molecular benchmarks. Against the limited set of other generalist graph models ToP performs strongly, including against models with many orders of magnitude larger. These findings show that ToP opens broad areas of research in both transfer learning on scarcely populated graph domains and in graph foundation models.
arxiv情報
著者 | Alex O. Davies,Riku W. Green,Nirav S. Ajmeri,Telmo M. Silva Filho |
発行日 | 2024-12-02 12:44:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google