要約
トピック モデリングは自然言語処理の基本的なタスクであり、テキスト コーパス内の潜在的なテーマ構造の発見を可能にします。
大規模言語モデル (LLM) はトピック発見において有望な機能を実証していますが、トピック モデリングへの直接適用には、不完全なトピック カバレッジ、トピックの不整合、非効率などの問題があります。
これらの制限に対処するために、LLM を多くの既存のニューラル トピック モデル (NTM) と統合する新しい LLM インザループ フレームワークである LLM-ITL を提案します。
LLM-ITL では、グローバル トピックとドキュメント表現は NTM を通じて学習され、LLM は信頼度に重み付けされた最適トランスポート (OT) ベースの調整目標を通じてトピックを洗練します。
このプロセスにより、NTM の効率を維持しながら、学習したトピックの解釈可能性と一貫性が向上します。
広範な実験により、LLM-ITL は、NTM が文書表現の品質を維持しながらトピックの解釈可能性を大幅に向上させるのに役立つことが実証されました。
要約(オリジナル)
Topic modeling is a fundamental task in natural language processing, allowing the discovery of latent thematic structures in text corpora. While Large Language Models (LLMs) have demonstrated promising capabilities in topic discovery, their direct application to topic modeling suffers from issues such as incomplete topic coverage, misalignment of topics, and inefficiency. To address these limitations, we propose LLM-ITL, a novel LLM-in-the-loop framework that integrates LLMs with many existing Neural Topic Models (NTMs). In LLM-ITL, global topics and document representations are learned through the NTM, while an LLM refines the topics via a confidence-weighted Optimal Transport (OT)-based alignment objective. This process enhances the interpretability and coherence of the learned topics, while maintaining the efficiency of NTMs. Extensive experiments demonstrate that LLM-ITL can help NTMs significantly improve their topic interpretability while maintaining the quality of document representation.
arxiv情報
著者 | Xiaohao Yang,He Zhao,Weijie Xu,Yuanyuan Qi,Jueqing Lu,Dinh Phung,Lan Du |
発行日 | 2024-11-13 11:31:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google