Neural Topic Modeling with Continual Lifelong Learning

要約

生涯学習は、将来の学習に役立つ知識を継続的に蓄積および伝達する機械学習システムの構築において、最近注目を集めています。
教師なしトピック モデリングは、ドキュメント コレクションからトピックを検出するために広く使用されています。
ただし、トピック モデリングの適用は、データが少ないため、たとえば (短い) ドキュメントの小さなコレクションでは困難であるため、一貫性のないトピックや次善のドキュメント表現が生成されます。
この問題に対処するために、私たちは、ドキュメントコレクションのストリームを継続的に処理し、トピックを蓄積し、まばらなデータをより適切に処理するために複数のソースからの知識伝達によって将来のトピックモデリングタスクをガイドできる、ニューラルトピックモデリングのための生涯学習フレームワークを提案します。
生涯にわたるプロセスでは、特に次のことを共同で調査します: (1) 生涯にわたる生成的相同性 (潜在的なトピック) を共有して事前知識を伝達する、(2) 新しい選択的データ拡張、共同トレーニング、およびトピックを通じて過去の学習を保持するために壊滅的な忘却を最小限に抑える
正則化アプローチ。
ドキュメント コレクションのストリームを考慮して、提案されている生涯ニューラル トピック モデリング (LNTM) フレームワークを適用して、将来のタスクとして 3 つの疎なドキュメント コレクションをモデル化し、混乱、トピックの一貫性、および情報検索タスクによって定量化されたパフォーマンスの向上を実証します。

要約(オリジナル)

Lifelong learning has recently attracted attention in building machine learning systems that continually accumulate and transfer knowledge to help future learning. Unsupervised topic modeling has been popularly used to discover topics from document collections. However, the application of topic modeling is challenging due to data sparsity, e.g., in a small collection of (short) documents and thus, generate incoherent topics and sub-optimal document representations. To address the problem, we propose a lifelong learning framework for neural topic modeling that can continuously process streams of document collections, accumulate topics and guide future topic modeling tasks by knowledge transfer from several sources to better deal with the sparse data. In the lifelong process, we particularly investigate jointly: (1) sharing generative homologies (latent topics) over lifetime to transfer prior knowledge, and (2) minimizing catastrophic forgetting to retain the past learning via novel selective data augmentation, co-training and topic regularization approaches. Given a stream of document collections, we apply the proposed Lifelong Neural Topic Modeling (LNTM) framework in modeling three sparse document collections as future tasks and demonstrate improved performance quantified by perplexity, topic coherence and information retrieval task.

arxiv情報

著者 Pankaj Gupta,Yatin Chaudhary,Thomas Runkler,Hinrich Schütze
発行日 2023-06-27 05:32:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG, cs.NE パーマリンク