Topics in the Haystack: Extracting and Evaluating Topics beyond Coherence

要約

自然言語処理 (NLP) では、大きなテキスト コーパスから潜在的なトピックを抽出して特定することがますます重要になっています。
ほとんどのモデルは、潜在的ディリクレ配分 (LDA) に似た確率モデルであろうとニューラル トピック モデルであろうと、トピックの解釈可能性とトピック抽出の同じ基本的なアプローチに従います。
文とドキュメントの両方のテーマをより深く理解し、単にデータ内の単語の頻度を分析するだけではない方法を提案します。
これにより、私たちのモデルは、ドキュメント自体に存在しない単語だけでなく、珍しい単語や新語を含む可能性のある潜在的なトピックを検出できます。
さらに、侵入者の言葉と意味空間における類似度に基づくいくつかの新しい評価指標を提案します。
侵入者の単語の人間の識別との相関係数を提示し、単語侵入タスクで人間に近いレベルの結果を達成します。
大規模なベンチマーク スタディでこの方法の競争力のあるパフォーマンスを実証し、最先端のトピック モデリングおよびドキュメント クラスタリング モデルと比較して優れた結果を達成しています。

要約(オリジナル)

Extracting and identifying latent topics in large text corpora has gained increasing importance in Natural Language Processing (NLP). Most models, whether probabilistic models similar to Latent Dirichlet Allocation (LDA) or neural topic models, follow the same underlying approach of topic interpretability and topic extraction. We propose a method that incorporates a deeper understanding of both sentence and document themes, and goes beyond simply analyzing word frequencies in the data. This allows our model to detect latent topics that may include uncommon words or neologisms, as well as words not present in the documents themselves. Additionally, we propose several new evaluation metrics based on intruder words and similarity measures in the semantic space. We present correlation coefficients with human identification of intruder words and achieve near-human level results at the word-intrusion task. We demonstrate the competitive performance of our method with a large benchmark study, and achieve superior results compared to state-of-the-art topic modeling and document clustering models.

arxiv情報

著者 Anton Thielmann,Quentin Seifert,Arik Reuter,Elisabeth Bergherr,Benjamin Säfken
発行日 2023-03-30 12:24:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク