要約
トピック モデリングはテキスト分析における重要な方法ですが、既存のアプローチはドキュメントごとに 1 つのトピックを想定することで制限されたり、短いテキストの大規模でノイズの多いデータセットに対して効率的に拡張できなかったりします。
我々は、クラスタリングベースのトピックモデリングフレームワークに分解ステップを導入することで、短いテキスト内の単一トピックを超えた複数のニュアンスのある意味コンポーネントを発見することで、これらの制限を克服する新しいトピックモデリング技術であるセマンティックコンポーネント分析(SCA)を紹介します。
複数の Twitter データセットで評価された SCA は、一貫性と多様性において最先端の手法 BERTopic に匹敵し、少なくとも 2 倍のセマンティック コンポーネントを明らかにし、ゼロに近いノイズ レートを維持しながら、過小評価されている言語を含む言語間でスケーラビリティと効果を維持します。
1つ。
要約(オリジナル)
Topic modeling is a key method in text analysis, but existing approaches are limited by assuming one topic per document or fail to scale efficiently for large, noisy datasets of short texts. We introduce Semantic Component Analysis (SCA), a novel topic modeling technique that overcomes these limitations by discovering multiple, nuanced semantic components beyond a single topic in short texts which we accomplish by introducing a decomposition step to the clustering-based topic modeling framework. Evaluated on multiple Twitter datasets, SCA matches the state-of-the-art method BERTopic in coherence and diversity, while uncovering at least double the semantic components and maintaining a noise rate close to zero while staying scalable and effective across languages, including an underrepresented one.
arxiv情報
著者 | Florian Eichin,Carolin Schuster,Georg Groh,Michael A. Hedderich |
発行日 | 2024-10-28 14:09:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google