要約
トピック モデルは、ドキュメント コレクションの分析に広く使用されています。
これらは、分析者がコーパスに不慣れな場合に、コーパス内の潜在的なトピックを発見するのに役立ちますが、分析者は通常、コーパス内に存在するコンテンツを理解することから始めます。
これは、コーパスの最初のパスから得られたカテゴリ、または高レベルの理論的枠組み (政治イデオロギーなど) から派生した事前定義されたカテゴリのセットを通じてコーパスを分析したいという要望によるものである可能性があります。
これらのシナリオでは、分析者は、モデルとのさまざまな形式の対話をサポートしながら、コーパスの理解を組み込むトピック モデリング アプローチを望んでいます。
この研究では、ラベル名監視トピック モデリングのアプローチとして EdTM を紹介します。
EdTM は、LM/LLM ベースのドキュメントとトピックの親和性を活用し、グローバルに一貫したトピック割り当てを行うための最適なトランスポートを使用しながら、割り当て問題としてトピック モデリングをモデル化します。
実験では、少数ショット LLM 分類器や、クラスタリングと LDA に基づくトピック モデルと比較して、フレームワークの有効性を示します。
さらに、ノイズの多いアナリストの入力に対して堅牢性を維持しながら、さまざまな形のアナリストのフィードバックを組み込む EdTM の能力を示します。
要約(オリジナル)
Topic models are widely used to analyze document collections. While they are valuable for discovering latent topics in a corpus when analysts are unfamiliar with the corpus, analysts also commonly start with an understanding of the content present in a corpus. This may be through categories obtained from an initial pass over the corpus or a desire to analyze the corpus through a predefined set of categories derived from a high level theoretical framework (e.g. political ideology). In these scenarios analysts desire a topic modeling approach which incorporates their understanding of the corpus while supporting various forms of interaction with the model. In this work, we present EdTM, as an approach for label name supervised topic modeling. EdTM models topic modeling as an assignment problem while leveraging LM/LLM based document-topic affinities and using optimal transport for making globally coherent topic-assignments. In experiments, we show the efficacy of our framework compared to few-shot LLM classifiers, and topic models based on clustering and LDA. Further, we show EdTM’s ability to incorporate various forms of analyst feedback and while remaining robust to noisy analyst inputs.
arxiv情報
著者 | Garima Dhanania,Sheshera Mysore,Chau Minh Pham,Mohit Iyyer,Hamed Zamani,Andrew McCallum |
発行日 | 2024-06-28 13:57:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google