Reliability of Topic Modeling

要約

トピック モデルを使用すると、研究者はテキスト データから潜在的な要素を抽出し、それらの変数を下流の統計分析で使用できます。
ただし、これらの方法論は、初期化の違い、サンプリング手順のランダム性、またはノイズの多いデータによって大きく異なる可能性があります。
多くの研究者が学習したトピック モデルをその後の分析のグラウンド トゥルースとして扱うため、これらの手法の信頼性は特に懸念されます。
この研究では、トピック モデルの信頼性を定量化するための標準的な手法では、広く使用されている 2 つのトピック モデルの変動の重要な側面を捉えることができないことを示します。
測定理論に関する広範な文献に基づいて、トピックモデルの信頼性を評価するための他の 3 つの指標の実証的および理論的分析を提供します。
合成データと現実世界のデータに関して、マクドナルド $\omega$ が信頼性の最良のカプセル化を提供することを示します。
この指標は、トピック モデルに基づく研究の標準コンポーネントとなるトピック モデル方法論を検証するための重要なツールを提供します。

要約(オリジナル)

Topic models allow researchers to extract latent factors from text data and use those variables in downstream statistical analyses. However, these methodologies can vary significantly due to initialization differences, randomness in sampling procedures, or noisy data. Reliability of these methods is of particular concern as many researchers treat learned topic models as ground truth for subsequent analyses. In this work, we show that the standard practice for quantifying topic model reliability fails to capture essential aspects of the variation in two widely-used topic models. Drawing from a extensive literature on measurement theory, we provide empirical and theoretical analyses of three other metrics for evaluating the reliability of topic models. On synthetic and real-world data, we show that McDonald’s $\omega$ provides the best encapsulation of reliability. This metric provides an essential tool for validation of topic model methodologies that should be a standard component of any topic model-based research.

arxiv情報

著者 Kayla Schroeder,Zach Wood-Doughty
発行日 2024-10-30 16:42:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク