TopicGPT: A Prompt-based Topic Modeling Framework

要約

トピック モデリングは、テキスト コーパスを探索するための確立された手法です。
従来のトピック モデル (LDA など) は、トピックを単語の集まりとして表現しており、解釈するには「茶葉を読む」必要があることがよくあります。
さらに、トピックに対する最小限のセマンティック制御をユーザーに提供します。
これらの問題に取り組むために、大規模言語モデル (LLM) を使用して、提供されたテキスト コレクション内の潜在的なトピックを発見するプロンプト ベースのフレームワークである TopicGPT を導入します。
TopicGPT は、競合する方法と比較して、人間の分類とよりよく一致するトピックを生成します。たとえば、人間が注釈を付けた Wikipedia トピックに対しては、最も強いベースラインの 0.64 と比較して、調和平均純度 0.74 を達成します。
また、トピックはより解釈しやすくなり、あいまいな単語が不要になり、自然言語ラベルとそれに関連する自由形式の説明を含むトピックが優先されます。
さらに、このフレームワークは適応性が高く、ユーザーはモデルを再トレーニングすることなく制約を指定し、トピックを変更できます。
TopicGPT は階層トピック モデリングにさらに拡張でき、ユーザーはさまざまな粒度レベルでトピックを探索できるようになります。
高品質で解釈可能なトピックへのアクセスを効率化することで、TopicGPT は、トピック モデリングに対する魅力的で人間中心のアプローチを実現します。

要約(オリジナル)

Topic modeling is a well-established technique for exploring text corpora. Conventional topic models (e.g., LDA) represent topics as bags of words that often require ‘reading the tea leaves’ to interpret; additionally, they offer users minimal semantic control over topics. To tackle these issues, we introduce TopicGPT, a prompt-based framework that uses large language models (LLMs) to uncover latent topics within a provided text collection. TopicGPT produces topics that align better with human categorizations compared to competing methods: for example, it achieves a harmonic mean purity of 0.74 against human-annotated Wikipedia topics compared to 0.64 for the strongest baseline. Its topics are also more interpretable, dispensing with ambiguous bags of words in favor of topics with natural language labels and associated free-form descriptions. Moreover, the framework is highly adaptable, allowing users to specify constraints and modify topics without the need for model retraining. TopicGPT can be further extended to hierarchical topical modeling, enabling users to explore topics at various levels of granularity. By streamlining access to high-quality and interpretable topics, TopicGPT represents a compelling, human-centered approach to topic modeling.

arxiv情報

著者 Chau Minh Pham,Alexander Hoyle,Simeng Sun,Mohit Iyyer
発行日 2023-11-02 17:57:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク