Merging Embedded Topics with Optimal Transport for Online Topic Modeling on Data Streams

要約

トピックモデリングは、教師のない学習の重要なコンポーネントであり、テキストデータのコーパス内のトピックを特定するために採用されています。
ソーシャルメディアの急速な成長は、増え続けるテキストデータを毎日生成し、オンライントピックモデリング方法を、これらのデータストリームを時間とともに継続的に管理するために不可欠です。
このペーパーでは、StreametMという名前のオンライントピックモデリングへの新しいアプローチを紹介します。
このアプローチは、不均衡な最適輸送を使用して連続した部分ドキュメントバッチで学習されたモデルをマージすることにより、データストリームを処理するための組み込みトピックモデル(ETM)に基づいています。
さらに、オンライン変更点検出アルゴリズムが採用され、時間の経過とともにトピックのシフトを特定し、テキストストリームのダイナミクスの大幅な変化の識別を可能にします。
シミュレートされた現実世界のデータでの数値実験は、StreametMよりも優れた競合他社を示しています。

要約(オリジナル)

Topic modeling is a key component in unsupervised learning, employed to identify topics within a corpus of textual data. The rapid growth of social media generates an ever-growing volume of textual data daily, making online topic modeling methods essential for managing these data streams that continuously arrive over time. This paper introduces a novel approach to online topic modeling named StreamETM. This approach builds on the Embedded Topic Model (ETM) to handle data streams by merging models learned on consecutive partial document batches using unbalanced optimal transport. Additionally, an online change point detection algorithm is employed to identify shifts in topics over time, enabling the identification of significant changes in the dynamics of text streams. Numerical experiments on simulated and real-world data show StreamETM outperforming competitors.

arxiv情報

著者 Federica Granese,Benjamin Navet,Serena Villata,Charles Bouveyron
発行日 2025-04-10 13:04:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク