ConGraT: Self-Supervised Contrastive Pretraining for Joint Graph and Text Embeddings

要約

我々は、ConGraT(Contrastive Graph-Text pretraining) を提案します。これは、親 (または「上位」) グラフ内のテキストとノードの別々の表現を共同で学習するための一般的な自己教師ありの方法であり、各テキストはノードの 1 つに関連付けられています。

このパラダイムに適合するデータセットは、ソーシャル メディア (ユーザーと投稿) から、記事上の引用ネットワーク、Web ページ上のリンク グラフに至るまで、一般的です。
私たちは、特定のデータセット構造や特定のタスクに依存しない、一般的な自己監視型の共同事前トレーニング方法を提供することで、以前の研究を拡張しました。
私たちの方法では、グラフ ノードとテキストに 2 つの別個のエンコーダーを使用し、共通の潜在空間内で表現を揃えるようにトレーニングされています。
トレーニングでは、テキストと画像の共同エンコーディングに関する以前の研究からインスピレーションを得た、バッチ単位の対照的な学習目標を使用します。
グラフは画像よりも構造化されたオブジェクトであるため、ノードとテキストの一致におけるノードの類似性と妥当な次の推測に関する情報を組み込むようにトレーニング目標も拡張しました。
さまざまなデータセットでの実験により、ConGraT がノードとテキストのカテゴリ分類やリンク予測などのさまざまな下流タスクで強力なベースラインを上回るパフォーマンスを発揮することが明らかになりました。
コードと特定のデータセットは https://github.com/wwbrannon/congrat で入手できます。

要約(オリジナル)

We propose ConGraT(Contrastive Graph-Text pretraining), a general, self-supervised method for jointly learning separate representations of texts and nodes in a parent (or “supervening”) graph, where each text is associated with one of the nodes. Datasets fitting this paradigm are common, from social media (users and posts), to citation networks over articles, to link graphs over web pages. We expand on prior work by providing a general, self-supervised, joint pretraining method, one which does not depend on particular dataset structure or a specific task. Our method uses two separate encoders for graph nodes and texts, which are trained to align their representations within a common latent space. Training uses a batch-wise contrastive learning objective inspired by prior work on joint text and image encoding. As graphs are more structured objects than images, we also extend the training objective to incorporate information about node similarity and plausible next guesses in matching nodes and texts. Experiments on various datasets reveal that ConGraT outperforms strong baselines on various downstream tasks, including node and text category classification and link prediction. Code and certain datasets are available at https://github.com/wwbrannon/congrat.

arxiv情報

著者 William Brannon,Suyash Fulay,Hang Jiang,Wonjune Kang,Brandon Roy,Jad Kabbara,Deb Roy
発行日 2023-05-23 17:53:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク