Creating Targeted, Interpretable Topic Models with LLM-Generated Text Augmentation

要約

トピックモデリングやクラスタリングなどの監視されていない機械学習手法は、政治学や社会学などの分野の構造化されていないテキストデータの潜在パターンを特定するためによく使用されます。
これらの方法は、人間の定性分析の労働集約的なプロセスに関与する再現性とコスト感に関する一般的な懸念を克服します。
ただし、トピックモデルの2つの主要な制限は、その解釈可能性と、ターゲットを絞ったドメイン固有の社会科学研究の質問に答えるための実用性です。
この作業では、LLMで生成されたテキスト増強を使用して、トピックモデリング出力の有用性を改善する機会を調査します。
政治学のケーススタディを使用して、結果をドメイン固有のアプリケーションで評価し、GPT-4の増強を使用したトピックモデリングは、最小限の人間のガイダンスでドメイン固有の研究質問を調査するために使用できる非常に解釈可能なカテゴリを作成することがわかります。

要約(オリジナル)

Unsupervised machine learning techniques, such as topic modeling and clustering, are often used to identify latent patterns in unstructured text data in fields such as political science and sociology. These methods overcome common concerns about reproducibility and costliness involved in the labor-intensive process of human qualitative analysis. However, two major limitations of topic models are their interpretability and their practicality for answering targeted, domain-specific social science research questions. In this work, we investigate opportunities for using LLM-generated text augmentation to improve the usefulness of topic modeling output. We use a political science case study to evaluate our results in a domain-specific application, and find that topic modeling using GPT-4 augmentations creates highly interpretable categories that can be used to investigate domain-specific research questions with minimal human guidance.

arxiv情報

著者 Anna Lieb,Maneesh Arora,Eni Mustafaraj
発行日 2025-04-24 11:14:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク