BERTTM: Leveraging Contextualized Word Embeddings from Pre-trained Language Models for Neural Topic Modeling

要約

近年のニューラルトピックモデルの開発により、トピックモデリングは自然言語理解においてますます重要な役割を果たしています。
ただし、既存のトピック モデルのほとんどは、依然としてトレーニング入力またはトレーニング ターゲットとしてバッグ オブ ワード (BoW) 情報に依存しています。
これにより、文書内の語順情報を取得する能力が制限され、語彙不足 (OOV) の問題に悩まされることになります。つまり、新しい文書で観察されなかった単語を処理できなくなります。
事前トレーニングされた言語モデルからのコンテキスト化された単語埋め込みは、語義の曖昧さを排除する能力において優れていることを示し、OOV 単語の処理に効果的であることが証明されています。
この研究では、事前トレーニングされた言語モデル BERT からの文脈化された単語埋め込みを組み合わせた新しいニューラル トピック モデルを開発しました。
このモデルは、BoW 情報を使用せずにドキュメントのトピック分布を推測できます。
さらに、モデルは、文脈化された単語の埋め込みから直接、文書内の各単語のトピック分布を推測できます。
いくつかのデータセットでの実験では、私たちのモデルが文書分類とトピック一貫性メトリクスの両方の点で既存のトピック モデルよりも優れており、新しく到着した文書からの未確認の単語に対応できることが示されています。
NER データセットの実験では、私たちのモデルが高品質の単語トピック表現を生成できることも示しています。

要約(オリジナル)

With the development of neural topic models in recent years, topic modelling is playing an increasingly important role in natural language understanding. However, most existing topic models still rely on bag-of-words (BoW) information, either as training input or training target. This limits their ability to capture word order information in documents and causes them to suffer from the out-of-vocabulary (OOV) issue, i.e. they cannot handle unobserved words in new documents. Contextualized word embeddings from pre-trained language models show superiority in the ability of word sense disambiguation and prove to be effective in dealing with OOV words. In this work, we developed a novel neural topic model combining contextualized word embeddings from the pre-trained language model BERT. The model can infer the topic distribution of a document without using any BoW information. In addition, the model can infer the topic distribution of each word in a document directly from the contextualized word embeddings. Experiments on several datasets show that our model outperforms existing topic models in terms of both document classification and topic coherence metrics and can accommodate unseen words from newly arrived documents. Experiments on the NER dataset also show that our model can produce high-quality word topic representations.

arxiv情報

著者 Zheng Fang,Yulan He,Rob Procter
発行日 2023-05-16 10:07:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク