Multi-environment Topic Models

要約

確率的トピックモデルは、大規模なテキストデータセットから潜在的なテーマを抽出するための強力なツールである。多くのテキストデータセットでは、「大域的な」(環境にとらわれない)トピック表現を調整する環境として機能する、文書ごとの共変量(出典、スタイル、政治的所属など)も観測される。これらの表現を正確に学習することは、未知の環境における新しい文書に対する予測や、実世界の結果に対するトピックの因果効果を推定するために重要である。この目的のために、我々はグローバルな用語と環境固有の用語を分離した教師なし確率モデルであるマルチ環境トピックモデル(MTM)を導入する。広告からツイートや演説に至るまで、様々な政治的コンテンツに対する実験を通して、MTMが解釈可能なグローバルトピックと明確な環境固有語を生成することを示す。多環境データにおいて、MTMは分布内でも分布外でも強力なベースラインを凌駕する。また、正確な因果効果の発見も可能である。

要約(オリジナル)

Probabilistic topic models are a powerful tool for extracting latent themes from large text datasets. In many text datasets, we also observe per-document covariates (e.g., source, style, political affiliation) that act as environments that modulate a ‘global’ (environment-agnostic) topic representation. Accurately learning these representations is important for prediction on new documents in unseen environments and for estimating the causal effect of topics on real-world outcomes. To this end, we introduce the Multi-environment Topic Model (MTM), an unsupervised probabilistic model that separates global and environment-specific terms. Through experimentation on various political content, from ads to tweets and speeches, we show that the MTM produces interpretable global topics with distinct environment-specific words. On multi-environment data, the MTM outperforms strong baselines in and out-of-distribution. It also enables the discovery of accurate causal effects.

arxiv情報

著者 Dominic Sobhani,Amir Feder,David Blei
発行日 2024-11-01 01:49:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク