要約
対照学習を行う既存の NTM は、単語頻度ベースのサンプリング戦略によりサンプル バイアスの問題に悩まされ、プロトタイプと同様のセマンティクスを持つ偽陰性サンプルが生成される可能性があります。
この論文では、前述の問題に対処するために、NTM における効率的なサンプリング戦略と対照学習を検討することを目的としています。
我々は、ネガティブサンプルにはプロトタイプとは意味的に無関係な単語が含まれているはずであるという新しいサンプリング仮定を提案します。
これに基づいて、文書と単語間の詳細な相関と無関連性を活用したグラフベースのサンプリング戦略によって生成された有益な肯定的サンプルと否定的サンプルを使用してグラフ対照学習(GCL)を実行するグラフ対照トピックモデル(GCTM)を提案します。
。
GCTM では、まず入力ドキュメントをドキュメント単語二部グラフ (DWBG) としてモデル化し、グラフ ニューラル ネットワークによってエンコードされた正および負の単語共起グラフ (WCG) を構築して、単語間の詳細な意味相関と無関係を表現します。
。
DWBG と WCG に基づいて、文書と単語間のマルチホップ相関/無関連性に基づいて、DWBG のエッジ摂動を実行する文書単語情報伝播 (DWIP) プロセスを設計します。
これにより、目的のネガティブ サンプルとポジティブ サンプルが生成され、プロトタイプとともに GCL に利用され、学習ドキュメントのトピック表現と潜在トピックが改善されます。
さらに、GCL が、DWBG 上のさまざまな視点の潜在トピック表現の相互情報を最大化する構造化変分グラフ自動エンコーダーとして解釈できることを示します。
いくつかのベンチマーク データセットでの実験により、既存の SOTA 手法と比較して、トピックの一貫性とドキュメント表現の学習に対する私たちの手法の有効性が実証されました。
要約(オリジナル)
Existing NTMs with contrastive learning suffer from the sample bias problem owing to the word frequency-based sampling strategy, which may result in false negative samples with similar semantics to the prototypes. In this paper, we aim to explore the efficient sampling strategy and contrastive learning in NTMs to address the aforementioned issue. We propose a new sampling assumption that negative samples should contain words that are semantically irrelevant to the prototype. Based on it, we propose the graph contrastive topic model (GCTM), which conducts graph contrastive learning (GCL) using informative positive and negative samples that are generated by the graph-based sampling strategy leveraging in-depth correlation and irrelevance among documents and words. In GCTM, we first model the input document as the document word bipartite graph (DWBG), and construct positive and negative word co-occurrence graphs (WCGs), encoded by graph neural networks, to express in-depth semantic correlation and irrelevance among words. Based on the DWBG and WCGs, we design the document-word information propagation (DWIP) process to perform the edge perturbation of DWBG, based on multi-hop correlations/irrelevance among documents and words. This yields the desired negative and positive samples, which will be utilized for GCL together with the prototypes to improve learning document topic representations and latent topics. We further show that GCL can be interpreted as the structured variational graph auto-encoder which maximizes the mutual information of latent topic representations of different perspectives on DWBG. Experiments on several benchmark datasets demonstrate the effectiveness of our method for topic coherence and document representation learning compared with existing SOTA methods.
arxiv情報
著者 | Zheheng Luo,Lei Liu,Qianqian Xie,Sophia Ananiadou |
発行日 | 2023-07-05 07:39:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google