On the Affinity, Rationality, and Diversity of Hierarchical Topic Modeling

要約

階層トピック モデリングは、コーパスから潜在的なトピックを発見し、それらを階層に編成して、望ましい意味論的な粒度で文書を理解することを目的としています。
しかし、既存の研究では、親和性、合理性、多様性が低いトピック階層を生成することに苦労しており、文書の理解を妨げています。
これらの課題を克服するために、本稿では、Transport Plan and Context-aware Hierarchical Topic Model (TraCo) を提案します。
初期の単純なトピック依存関係の代わりに、トランスポート プラン依存関係メソッドを提案します。
依存関係を制約してその疎性とバランスを確保し、依存関係によるトピック階層の構築を規則化します。
これにより、階層の親和性と多様性が向上します。
さらに、コンテキスト認識型のもつれ解除デコーダを提案します。
以前にエンタングルされたデコーディングではなく、デコーディングを解くことによって、異なるレベルのトピックに異なるセマンティック粒度を分散します。
これにより、階層の合理性が促進されます。
ベンチマーク データセットの実験では、私たちの手法が最先端のベースラインを上回り、階層トピック モデリングの親和性、合理性、多様性が効果的に向上し、下流タスクのパフォーマンスが向上することが実証されました。

要約(オリジナル)

Hierarchical topic modeling aims to discover latent topics from a corpus and organize them into a hierarchy to understand documents with desirable semantic granularity. However, existing work struggles with producing topic hierarchies of low affinity, rationality, and diversity, which hampers document understanding. To overcome these challenges, we in this paper propose Transport Plan and Context-aware Hierarchical Topic Model (TraCo). Instead of early simple topic dependencies, we propose a transport plan dependency method. It constrains dependencies to ensure their sparsity and balance, and also regularizes topic hierarchy building with them. This improves affinity and diversity of hierarchies. We further propose a context-aware disentangled decoder. Rather than previously entangled decoding, it distributes different semantic granularity to topics at different levels by disentangled decoding. This facilitates the rationality of hierarchies. Experiments on benchmark datasets demonstrate that our method surpasses state-of-the-art baselines, effectively improving the affinity, rationality, and diversity of hierarchical topic modeling with better performance on downstream tasks.

arxiv情報

著者 Xiaobao Wu,Fengjun Pan,Thong Nguyen,Yichao Feng,Chaoqun Liu,Cong-Duy Nguyen,Anh Tuan Luu
発行日 2024-01-25 11:47:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク