要約
対照学習は、テキスト クラスタリング タスクの効果的な表現を学習するために頻繁に研究されてきました。
既存の対比学習ベースのテキスト クラスタリング手法は、インスタンスごとの意味論的な類似関係のモデル化のみに焦点を当てていますが、コンテキスト情報や、クラスタ化する必要があるすべてのインスタンス間の基礎的な関係は無視されます。
この論文では、インスタンス間のクラスターごとの関係をモデル化する、部分空間対照学習 (SCL) と呼ばれる新しいテキスト クラスタリング アプローチを提案します。
具体的には、提案された SCL は 2 つの主要モジュールで構成されます: (1) 仮想ポジティブサンプルを構築する自己表現モジュール、および (2) テキスト間のタスク固有のクラスターごとの関係を捕捉するために識別部分空間をさらに学習する対比学習モジュール。
実験結果は、提案された SCL 手法がマルチタスク クラスタリング データセットで優れた結果を達成しただけでなく、ポジティブ サンプル構築の複雑さが軽減されたことを示しています。
要約(オリジナル)
Contrastive learning has been frequently investigated to learn effective representations for text clustering tasks. While existing contrastive learning-based text clustering methods only focus on modeling instance-wise semantic similarity relationships, they ignore contextual information and underlying relationships among all instances that needs to be clustered. In this paper, we propose a novel text clustering approach called Subspace Contrastive Learning (SCL) which models cluster-wise relationships among instances. Specifically, the proposed SCL consists of two main modules: (1) a self-expressive module that constructs virtual positive samples and (2) a contrastive learning module that further learns a discriminative subspace to capture task-specific cluster-wise relationships among texts. Experimental results show that the proposed SCL method not only has achieved superior results on multiple task clustering datasets but also has less complexity in positive sample construction.
arxiv情報
著者 | Qian Yong,Chen Chen,Xiabing Zhou |
発行日 | 2024-08-26 09:08:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google