Data-Centric Learning from Unlabeled Graphs with Diffusion Model

要約

グラフ プロパティの予測タスクは重要であり、数多くあります。
各タスクでは小さいサイズのラベル付きサンプルが提供されますが、ラベルなしのグラフはさまざまなソースから大規模に収集されています。
従来のアプローチでは、自己教師ありタスクでラベルのないグラフを使用してモデルをトレーニングし、次に予測タスクでモデルを微調整します。
ただし、自己教師ありタスクの知識は予測に必要なものと一致しなかったり、場合によっては矛盾したりすることがありました。
この論文では、ラベルのないグラフの大規模なセットの基礎となる知識を、各特性予測モデルを強化するために有用なデータ ポイントの特定のセットとして抽出することを提案します。
拡散モデルを使用してラベルなしグラフを最大限に活用し、各タスクのラベル付きデータを使用してモデルのノイズ除去プロセスをガイドし、タスク固有のグラフの例とそのラベルを生成する 2 つの新しい目標を設計します。
実験では、データ中心のアプローチが 15 のタスクに対して 15 の既存のさまざまな手法よりも大幅に優れたパフォーマンスを発揮することを示しています。
自己教師あり学習とは異なり、ラベルなしデータによってもたらされるパフォーマンスの向上は、生成されたラベル付きサンプルとして目に見えます。

要約(オリジナル)

Graph property prediction tasks are important and numerous. While each task offers a small size of labeled examples, unlabeled graphs have been collected from various sources and at a large scale. A conventional approach is training a model with the unlabeled graphs on self-supervised tasks and then fine-tuning the model on the prediction tasks. However, the self-supervised task knowledge could not be aligned or sometimes conflicted with what the predictions needed. In this paper, we propose to extract the knowledge underlying the large set of unlabeled graphs as a specific set of useful data points to augment each property prediction model. We use a diffusion model to fully utilize the unlabeled graphs and design two new objectives to guide the model’s denoising process with each task’s labeled data to generate task-specific graph examples and their labels. Experiments demonstrate that our data-centric approach performs significantly better than fifteen existing various methods on fifteen tasks. The performance improvement brought by unlabeled data is visible as the generated labeled examples unlike the self-supervised learning.

arxiv情報

著者 Gang Liu,Eric Inae,Tong Zhao,Jiaxin Xu,Tengfei Luo,Meng Jiang
発行日 2023-10-12 15:24:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク