Iterative Improvement of an Additively Regularized Topic Model

要約

トピック モデリングは、基本的にはソフト クラスタリング問題です (既知のオブジェクト、ドキュメント、未知のクラスター、トピック)。
つまり、タスクの設定が間違っています。
特に、トピック モデルは不安定で不完全です。
これらすべてが、適切なトピック モデルを見つけるプロセス (ハイパーパラメーターの選択、モデルのトレーニング、トピックの品質評価の繰り返し) が特に長く、労力を要する可能性があるという事実につながります。
私たちはプロセスを簡素化し、より決定的で証明可能にすることを目指しています。
この目的を達成するために、トピック モデルの反復トレーニングの方法を紹介します。
この方法の本質は、一連の関連トピック モデルが、後続の各モデルが少なくとも前のモデルと同じくらい優れたものになるように、つまり、以前に見つかったすべての良好なトピックを保持するようにトレーニングされることです。
モデル間の接続は、加法正則化によって実現されます。
この反復トレーニングの結果は、シリーズの最後のトピック モデルであり、これを反復更新された加算的正則化トピック モデル (ITAR) と呼びます。
自然言語テキストのいくつかのコレクションに対して行われた実験では、提案された ITAR モデルが他の一般的なトピック モデル (LDA、ARTM、BERTopic) よりも優れたパフォーマンスを示し、そのトピックは多様であり、その複雑さ (基礎となるデータを「説明」する能力) は中程度であることが示されています。

要約(オリジナル)

Topic modelling is fundamentally a soft clustering problem (of known objects — documents, over unknown clusters — topics). That is, the task is incorrectly posed. In particular, the topic models are unstable and incomplete. All this leads to the fact that the process of finding a good topic model (repeated hyperparameter selection, model training, and topic quality assessment) can be particularly long and labor-intensive. We aim to simplify the process, to make it more deterministic and provable. To this end, we present a method for iterative training of a topic model. The essence of the method is that a series of related topic models are trained so that each subsequent model is at least as good as the previous one, i.e., that it retains all the good topics found earlier. The connection between the models is achieved by additive regularization. The result of this iterative training is the last topic model in the series, which we call the iteratively updated additively regularized topic model (ITAR). Experiments conducted on several collections of natural language texts show that the proposed ITAR model performs better than other popular topic models (LDA, ARTM, BERTopic), its topics are diverse, and its perplexity (ability to ‘explain’ the underlying data) is moderate.

arxiv情報

著者 Alex Gorbulev,Vasiliy Alekseev,Konstantin Vorontsov
発行日 2024-08-14 11:07:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, math.PR パーマリンク