Probabilistic Topic Modelling with Transformer Representations

要約

過去 10 年間、トピック モデリングは主にベイジアン グラフィカル モデルによって占められていました。
しかし、自然言語処理におけるトランスフォーマーの台頭により、トランスフォーマーベースの埋め込み空間における直接的なクラスタリング アプローチに依存するいくつかの成功したモデルが出現し、トピックの概念を埋め込みベクトルのクラスターとして統合しました。
トランスフォーマー表現ニューラル トピック モデル (TNTM) を提案します。これは、トランスフォーマー ベースの埋め込み空間におけるトピック表現と確率的モデリングの利点を組み合わせたものです。
したがって、このアプローチは、潜在ディリクレ割り当て (LDA) などのモデルのような完全な確率的モデリングを使用して、トランスフォーマーの埋め込みに基づくトピックの強力で汎用性の高い概念を統合します。
推論速度とモデリングの柔軟性を向上させるために、変分オートエンコーダー (VAE) フレームワークを利用します。
実験結果は、私たちが提案したモデルが、ほぼ完璧なトピックの多様性を維持しながら、埋め込みの一貫性の点でさまざまな最先端のアプローチと同等の結果を達成することを示しています。
対応するソース コードは https://github.com/ArikReuter/TNTM で入手できます。

要約(オリジナル)

Topic modelling was mostly dominated by Bayesian graphical models during the last decade. With the rise of transformers in Natural Language Processing, however, several successful models that rely on straightforward clustering approaches in transformer-based embedding spaces have emerged and consolidated the notion of topics as clusters of embedding vectors. We propose the Transformer-Representation Neural Topic Model (TNTM), which combines the benefits of topic representations in transformer-based embedding spaces and probabilistic modelling. Therefore, this approach unifies the powerful and versatile notion of topics based on transformer embeddings with fully probabilistic modelling, as in models such as Latent Dirichlet Allocation (LDA). We utilize the variational autoencoder (VAE) framework for improved inference speed and modelling flexibility. Experimental results show that our proposed model achieves results on par with various state-of-the-art approaches in terms of embedding coherence while maintaining almost perfect topic diversity. The corresponding source code is available at https://github.com/ArikReuter/TNTM.

arxiv情報

著者 Arik Reuter,Anton Thielmann,Christoph Weisser,Benjamin Säfken,Thomas Kneib
発行日 2024-03-06 14:27:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク