CAST: Corpus-Aware Self-similarity Enhanced Topic modelling

要約

トピックモデリングは、大規模なドキュメントコレクションから貴重な洞察を抽出するための重要な監視されていない機械学習技術です。
既存のニューラルトピックモデリング方法は、ドキュメントのコンテキスト情報をエンコードすることがよくありますが、候補の重心単語のコンテキストの詳細を無視し、コンテキスト化のギャップによりトピック単語の不正確な選択につながります。
並行して、機能的な単語は局所的な単語よりも頻繁に選択されることがわかります。
これらの制限に対処するために、CAST:Corpus-Awareの自己相似性強化トピックモデリング、データセットにコンテキスト化された候補の重心ワード埋め込みに基づいた新しいトピックモデリング方法、およびそれほど意味のない除外する新しい自己相似ベースの方法を紹介します。
トークン。
異なるコンテキストでの機能的トークンの埋め込みの自己類似性は、局所トークンよりもはるかに低いという対照的な学習の調査結果に触発されました。我々は、機能的な単語が候補のトピック単語として作用するのを防ぐための効果的なメトリックであることを発見します。
私たちのアプローチは、生成されたトピックの一貫性と多様性、およびノイズの多いデータを処理するトピックモデルの能力を大幅に向上させます。
ニュースベンチマークデータセットと1つのTwitterデータセットでの実験は、コヒーレントで多様なトピックを生成し、ノイズの多いデータを処理し、強力なベースラインを上回る方法の優位性を示しています。

要約(オリジナル)

Topic modelling is a pivotal unsupervised machine learning technique for extracting valuable insights from large document collections. Existing neural topic modelling methods often encode contextual information of documents, while ignoring contextual details of candidate centroid words, leading to the inaccurate selection of topic words due to the contextualization gap. In parallel, it is found that functional words are frequently selected over topical words. To address these limitations, we introduce CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling method that builds upon candidate centroid word embeddings contextualized on the dataset, and a novel self-similarity-based method to filter out less meaningful tokens. Inspired by findings in contrastive learning that self-similarities of functional token embeddings in different contexts are much lower than topical tokens, we find self-similarity to be an effective metric to prevent functional words from acting as candidate topic words. Our approach significantly enhances the coherence and diversity of generated topics, as well as the topic model’s ability to handle noisy data. Experiments on news benchmark datasets and one Twitter dataset demonstrate the method’s superiority in generating coherent, diverse topics, and handling noisy data, outperforming strong baselines.

arxiv情報

著者 Yanan Ma,Chenghao Xiao,Chenhan Yuan,Sabine N van der Veer,Lamiece Hassan,Chenghua Lin,Goran Nenadic
発行日 2025-02-06 16:21:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク