CEIL: A General Classification-Enhanced Iterative Learning Framework for Text Clustering

要約

タイトル: テキストクラスタリング向け一般的分類性強化反復学習フレームワークCEIL

要約: テキストクラスタリングは、人間の注釈に頼らずに意味的に似たテキスト群をグループ化することを目的とする無監督学習の最も基礎的な課題の一つである。深層学習の急速な発展により、深層クラスタリングは従来のクラスタリング手法に比べて有意義な進歩を遂げている。しかし、ほとんどの既存の深層テキストクラスタリング手法は、一般的な領域で事前に学習された表現に強く依存しており、特定のターゲット領域でのクラスタリングに最適な解決策とはならない可能性がある。これに対処するために、私たちは、短いテキストクラスタリングのための新しい分類性強化反復学習フレームワークであるCEILを提案し、分類目的を導入して特徴表現を繰り返し改善することによって一般的にクラスタリング性能を向上させることを目指します。各反復では、言語モデルを採用して初期のテキスト表現を取得し、そのクラスタリング結果を提案されたカテゴリ解体対応クラスタリング(CDCC)アルゴリズムを使用して収集します。厳密なデータフィルタリングと集約プロセスの後、クリーンなカテゴリラベルを持つサンプルが取得され、プロンプト学習アプローチを介して分類目的を持つ言語モデルを更新する監督情報として役立ちます。最終的に、改善された表現能力を持つ更新された言語モデルを使用して、クラスタリングを次の反復で強化します。広範囲な実験により、CEILフレームワークが反復ごとにクラスタリング性能を劇的に向上させ、さまざまなクラスタリングアルゴリズムで一般的に効果的であることが示されました。さらに、CDCCにCEILを組み込むことで、他の優れたベースライン手法を上回る幅広い短いテキストクラスタリングベンチマークで最先端のクラスタリング性能を達成しました。

要約(オリジナル)

Text clustering, as one of the most fundamental challenges in unsupervised learning, aims at grouping semantically similar text segments without relying on human annotations. With the rapid development of deep learning, deep clustering has achieved significant advantages over traditional clustering methods. Despite the effectiveness, most existing deep text clustering methods rely heavily on representations pre-trained in general domains, which may not be the most suitable solution for clustering in specific target domains. To address this issue, we propose CEIL, a novel Classification-Enhanced Iterative Learning framework for short text clustering, which aims at generally promoting the clustering performance by introducing a classification objective to iteratively improve feature representations. In each iteration, we first adopt a language model to retrieve the initial text representations, from which the clustering results are collected using our proposed Category Disentangled Contrastive Clustering (CDCC) algorithm. After strict data filtering and aggregation processes, samples with clean category labels are retrieved, which serve as supervision information to update the language model with the classification objective via a prompt learning approach. Finally, the updated language model with improved representation ability is used to enhance clustering in the next iteration. Extensive experiments demonstrate that the CEIL framework significantly improves the clustering performance over iterations, and is generally effective on various clustering algorithms. Moreover, by incorporating CEIL on CDCC, we achieve the state-of-the-art clustering performance on a wide range of short text clustering benchmarks outperforming other strong baseline methods.

arxiv情報

著者 Mingjun Zhao,Mengzhen Wang,Yinglong Ma,Di Niu,Haijiang Wu
発行日 2023-04-20 14:04:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク