要約
確率的トピック モデルは、大規模なテキスト データセットから潜在的なテーマを抽出するための強力なツールです。
多くのテキスト データセットでは、「グローバル」(環境に依存しない) トピック表現を調整する環境として機能するドキュメントごとの共変量 (ソース、スタイル、政治的所属など) も観察されます。
これらの表現を正確に学習することは、目に見えない環境での新しいドキュメントを予測したり、現実世界の結果に対するトピックの因果関係を推定したりするために重要です。
この目的を達成するために、グローバルな用語と環境固有の用語を分離する教師なし確率モデルであるマルチ環境トピック モデル (MTM) を導入します。
広告からツイートやスピーチに至るまで、さまざまな政治コンテンツの実験を通じて、MTM が明確な環境固有の単語を使用して解釈可能なグローバルなトピックを生成することを示します。
複数環境のデータでは、MTM は配布内および配布外で強力なベースラインを上回ります。
また、正確な因果関係の発見も可能になります。
要約(オリジナル)
Probabilistic topic models are a powerful tool for extracting latent themes from large text datasets. In many text datasets, we also observe per-document covariates (e.g., source, style, political affiliation) that act as environments that modulate a ‘global’ (environment-agnostic) topic representation. Accurately learning these representations is important for prediction on new documents in unseen environments and for estimating the causal effect of topics on real-world outcomes. To this end, we introduce the Multi-environment Topic Model (MTM), an unsupervised probabilistic model that separates global and environment-specific terms. Through experimentation on various political content, from ads to tweets and speeches, we show that the MTM produces interpretable global topics with distinct environment-specific words. On multi-environment data, the MTM outperforms strong baselines in and out-of-distribution. It also enables the discovery of accurate causal effects.
arxiv情報
著者 | Dominic Sobhani,Amir Feder,David Blei |
発行日 | 2024-10-31 16:50:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google