Topic Modeling as Multi-Objective Contrastive Optimization

要約

最近の表現学習アプローチでは、対数尤度の証拠下限 (ELBO) と入力ドキュメントのペアを対比する対比学習目標の重み付き線形結合を最適化することで、ニューラル トピック モデルを強化しています。
ただし、ドキュメントレベルの対照学習では、単語の比率などの低レベルの相互情報が取得される可能性があり、トピックのモデリングを妨げます。
さらに、再構成の品質を向上させるために入力の詳細を記憶する ELBO 損失と、入力ドキュメント間で一般化するトピック表現を学習しようとする対照的損失の間には潜在的な矛盾があります。
これらの問題に対処するために、まず、入力ドキュメントのセット間で共有される有用なセマンティクスを捕捉するために、トピック ベクトルのセットを対象とした新しい対照学習方法を導入します。
次に、ELBO と対照的な目的の間のトレードオフのバランスをとるパレート定常解を達成することを目的として、対照的なトピック モデリングを勾配ベースの多目的最適化問題として明示的にキャストします。
広範な実験により、私たちのフレームワークが、トピックの一貫性、トピックの多様性、および下流のパフォーマンスの点で、よりパフォーマンスの高いニューラル トピック モデルを一貫して生成することが実証されました。

要約(オリジナル)

Recent representation learning approaches enhance neural topic models by optimizing the weighted linear combination of the evidence lower bound (ELBO) of the log-likelihood and the contrastive learning objective that contrasts pairs of input documents. However, document-level contrastive learning might capture low-level mutual information, such as word ratio, which disturbs topic modeling. Moreover, there is a potential conflict between the ELBO loss that memorizes input details for better reconstruction quality, and the contrastive loss which attempts to learn topic representations that generalize among input documents. To address these issues, we first introduce a novel contrastive learning method oriented towards sets of topic vectors to capture useful semantics that are shared among a set of input documents. Secondly, we explicitly cast contrastive topic modeling as a gradient-based multi-objective optimization problem, with the goal of achieving a Pareto stationary solution that balances the trade-off between the ELBO and the contrastive objective. Extensive experiments demonstrate that our framework consistently produces higher-performing neural topic models in terms of topic coherence, topic diversity, and downstream performance.

arxiv情報

著者 Thong Nguyen,Xiaobao Wu,Xinshuai Dong,Cong-Duy T Nguyen,See-Kiong Ng,Anh Tuan Luu
発行日 2024-02-12 11:18:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク