Enhanced Short Text Modeling: Leveraging Large Language Models for Topic Refinement

要約

ツイートやニュースの見出しなどの短いテキストに対して効果的なトピック モデルを作成することは、社会力学の急速な変化を捉えるために不可欠です。
しかし、従来のトピック モデルは、その簡潔さとコンテキスト データの欠如により、短いテキストの意味論的な複雑さを正確に表現するには不十分であることがよくあります。
私たちの研究では、大規模言語モデル (LLM) の高度な機能を利用して、「トピック洗練」と呼ばれる新しいアプローチを導入します。
このアプローチは、トピックの初期モデリングには直接関与しませんが、マイニング後のトピックの改善に焦点を当てています。
プロンプト エンジニアリングを採用することで、特定のトピック内のトピックから外れた単語を削除するように LLM に指示し、文脈上関連する単語のみが保持されるか、意味的により適合する単語に置き換えられるようにします。
この方法は、人間のような精査とトピックの改善をエミュレートし、それによってさまざまなモデルによって生成されたトピックの意味論的な品質を向上させます。
3 つの独自のデータセットにわたる包括的な評価により、トピック改良アプローチがトピックの意味論的な一貫性を大幅に強化することがわかりました。

要約(オリジナル)

Crafting effective topic models for brief texts, like tweets and news headlines, is essential for capturing the swift shifts in social dynamics. Traditional topic models, however, often fall short in accurately representing the semantic intricacies of short texts due to their brevity and lack of contextual data. In our study, we harness the advanced capabilities of Large Language Models (LLMs) to introduce a novel approach termed ‘Topic Refinement’. This approach does not directly involve itself in the initial modeling of topics but focuses on improving topics after they have been mined. By employing prompt engineering, we direct LLMs to eliminate off-topic words within a given topic, ensuring that only contextually relevant words are preserved or substituted with ones that fit better semantically. This method emulates human-like scrutiny and improvement of topics, thereby elevating the semantic quality of the topics generated by various models. Our comprehensive evaluation across three unique datasets has shown that our topic refinement approach significantly enhances the semantic coherence of topics.

arxiv情報

著者 Shuyu Chang,Rui Wang,Peng Ren,Haiping Huang
発行日 2024-03-26 13:50:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク