要約
トピックモデルは、大規模なテキストコーパで潜在的なテーマ構造を発見するために広く使用されていますが、従来の監視されていない方法は、事前に定義された概念ドメインと整合するのに苦労しています。
このペーパーでは、シードワードを通してドメインの知識を組み込むことによりポアソン因子化フレームワークを拡張する新しいアプローチであるシードされたポアソン因子化(SPF)を紹介します。
SPFは、トピック固有の用語強度の事前の分布を変更し、事前定義されたシード単語により高い初期レートを割り当てることにより、より解釈可能で構造化されたトピック発見を可能にします。
このモデルは、確率的勾配最適化を伴う変分推論を使用して推定され、大規模なデータセットのスケーラビリティを確保します。
SPFをAmazonの顧客フィードバックデータセットに適用し、ガイド構造として事前定義された製品カテゴリを活用します。
私たちの評価は、SPFが特に計算効率と予測パフォーマンスの観点から、代替ガイド付きトピックモデルと比較して優れた分類パフォーマンスを達成することを示しています。
さらに、堅牢性チェックは、不完全な種子単語の選択の場合でも、ドメインの知識とデータ駆動型トピックの発見のバランスをとるSPFの能力を強調しています。
これらの結果は、SPFが、専門知識をトピックモデリングに統合し、実際のアプリケーションの解釈可能性と効率の両方を強化するための強力でスケーラブルな代替品として確立されています。
要約(オリジナル)
Topic models are widely used for discovering latent thematic structures in large text corpora, yet traditional unsupervised methods often struggle to align with predefined conceptual domains. This paper introduces Seeded Poisson Factorization (SPF), a novel approach that extends the Poisson Factorization framework by incorporating domain knowledge through seed words. SPF enables a more interpretable and structured topic discovery by modifying the prior distribution of topic-specific term intensities, assigning higher initial rates to predefined seed words. The model is estimated using variational inference with stochastic gradient optimization, ensuring scalability to large datasets. We apply SPF to an Amazon customer feedback dataset, leveraging predefined product categories as guiding structures. Our evaluation demonstrates that SPF achieves superior classification performance compared to alternative guided topic models, particularly in terms of computational efficiency and predictive performance. Furthermore, robustness checks highlight SPF’s ability to adaptively balance domain knowledge and data-driven topic discovery, even in cases of imperfect seed word selection. These results establish SPF as a powerful and scalable alternative for integrating expert knowledge into topic modeling, enhancing both interpretability and efficiency in real-world applications.
arxiv情報
著者 | Bernd Prostmaier,Jan Vávra,Bettina Grün,Paul Hofmarcher |
発行日 | 2025-03-04 16:05:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google