要約
トピック モデリングは、確立された教師なし手法として、ドキュメントのコーパス内の重要なトピックを自動的に検出するために広く使用されています。
ただし、古典的なトピック モデリング アプローチ (LDA など) には、意味論的な理解の欠如や重複するトピックの存在など、特定の欠点があります。
この研究では、広範なテキスト コーパス内の根底にあるトピックを明らかにするための代替手段として、大規模言語モデル (LLM) の未開発の可能性を調査します。
この目的を達成するために、LLM が特定の文書セットからトピックを生成し、LLM のクラスタリングの有効性を評価するための評価プロトコルを確立するように促すフレームワークを導入します。
私たちの調査結果は、適切なプロンプトを備えた LLM が、関連するトピックのタイトルを生成し、人間のガイドラインに準拠してトピックを洗練および結合できる、実行可能な代替手段として傑出している可能性があることを示しています。
綿密な実験と評価を通じて、トピック抽出に LLM を採用する利点と制約を要約します。
要約(オリジナル)
Topic modelling, as a well-established unsupervised technique, has found extensive use in automatically detecting significant topics within a corpus of documents. However, classic topic modelling approaches (e.g., LDA) have certain drawbacks, such as the lack of semantic understanding and the presence of overlapping topics. In this work, we investigate the untapped potential of large language models (LLMs) as an alternative for uncovering the underlying topics within extensive text corpora. To this end, we introduce a framework that prompts LLMs to generate topics from a given set of documents and establish evaluation protocols to assess the clustering efficacy of LLMs. Our findings indicate that LLMs with appropriate prompts can stand out as a viable alternative, capable of generating relevant topic titles and adhering to human guidelines to refine and merge topics. Through in-depth experiments and evaluation, we summarise the advantages and constraints of employing LLMs in topic extraction.
arxiv情報
著者 | Yida Mu,Chun Dong,Kalina Bontcheva,Xingyi Song |
発行日 | 2024-03-26 17:46:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google