要約
時間の経過とともにトピック(TOT)モデルは、Word共起パターンと共同で公開日を明示的にモデル化することにより、タイムスタンプ付きデータセットのテーマの変更をキャプチャします。
しかし、TOTは完全にベイジアンの方法でアプローチされていませんでした。これは、安定性の問題を受けやすくする欠陥です。
この問題に対処するために、ベータ分布の前にコンジュゲートを導入することにより、時間の経過とともに完全にベイジアントピック(BTOT)モデルを提案します。
これは、トピックがミニバッチで不十分に表現されていない場合に、アルゴリズムのオンラインバージョンのアルゴリズムを不安定な更新から防止する正則化として機能します。
ベータ分布の前のこの特性は、初めてここで研究されています。
それでも、このモデルは、ドキュメントあたりの単語の多数の観測との間のスケールの違いに苦しんでいます。
BTOTのバリエーション、時間の経過に伴うベイジアントピック(WBTOT)が解決策として提案されています。
WBTOTでは、公開日はドキュメントごとに一定の回数を繰り返します。これは、推論プロセスに沿った単語とタイムスタンプの相対的な影響のバランスをとります。
2つのデータセットでモデルをテストしました。200年以上の米国のユニオン(SOTU)アドレスのコレクションと、1,000万ツイートの大規模なCovid-19 Twitterコーパスです。
結果は、WBTOTが潜在的なDirichletの割り当てやBertopicのような他のSOTAトピックモデルよりも優れたイベントをキャプチャすることを示しています。
また、私たちの実験は、BTOTよりもWBTOTの優れた一貫性を示しています。これは、時間と単語のモダリティのバランスをとることの重要性を強調しています。
最後に、WBTOTのオンライン最適化アルゴリズムの安定性を説明します。これにより、標準TOTに不可欠な問題にWBTOTを適用することができます。
要約(オリジナル)
The Topics over Time (ToT) model captures thematic changes in timestamped datasets by explicitly modeling publication dates jointly with word co-occurrence patterns. However, ToT was not approached in a fully Bayesian fashion, a flaw that makes it susceptible to stability problems. To address this issue, we propose a fully Bayesian Topics over Time (BToT) model via the introduction of a conjugate prior to the Beta distribution. This prior acts as a regularization that prevents the online version of the algorithm from unstable updates when a topic is poorly represented in a mini-batch. The characteristics of this prior to the Beta distribution are studied here for the first time. Still, this model suffers from a difference in scale between the single-time observations and the multiplicity of words per document. A variation of BToT, Weighted Bayesian Topics over Time (WBToT), is proposed as a solution. In WBToT, publication dates are repeated a certain number of times per document, which balances the relative influence of words and timestamps along the inference process. We have tested our models on two datasets: a collection of over 200 years of US state-of-the-union (SOTU) addresses and a large-scale COVID-19 Twitter corpus of 10 million tweets. The results show that WBToT captures events better than Latent Dirichlet Allocation and other SOTA topic models like BERTopic: the median absolute deviation of the topic presence over time is reduced by $51\%$ and $34\%$, respectively. Our experiments also demonstrate the superior coherence of WBToT over BToT, which highlights the importance of balancing the time and word modalities. Finally, we illustrate the stability of the online optimization algorithm in WBToT, which allows the application of WBToT to problems that are intractable for standard ToT.
arxiv情報
著者 | Julián Cendrero,Julio Gonzalo,Ivar Zapata |
発行日 | 2025-04-21 16:46:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google