CWTM: Leveraging Contextualized Word Embeddings from BERT for Neural Topic Modeling

要約

既存のトピック モデルのほとんどは、バッグ オブ ワード (BOW) 表現に依存しているため、語順情報を取得する能力が制限され、新しい文書内の語彙外 (OOV) 単語に関する問題が発生します。
ただし、コンテキスト化された単語の埋め込みは、単語の意味の明確化において優れており、OOV 問題に効果的に対処します。
この研究では、BERT の文脈化された単語埋め込みを統合する、Contextlized Word Topic Model (CWTM) と呼ばれる新しいニューラル トピック モデルを導入します。
このモデルは、BOW 情報なしでドキュメントのトピック ベクトルを学習できます。
さらに、文脈化された単語の埋め込みに基づいて、文書内の個々の単語のトピック ベクトルを導出することもできます。
さまざまなデータセットにわたる実験では、CWTM が既存のトピック モデルと比較して、より一貫性のある有意義なトピックを生成すると同時に、新たに遭遇した文書内の未知の単語にも対応できることが示されています。

要約(オリジナル)

Most existing topic models rely on bag-of-words (BOW) representation, which limits their ability to capture word order information and leads to challenges with out-of-vocabulary (OOV) words in new documents. Contextualized word embeddings, however, show superiority in word sense disambiguation and effectively address the OOV issue. In this work, we introduce a novel neural topic model called the Contextlized Word Topic Model (CWTM), which integrates contextualized word embeddings from BERT. The model is capable of learning the topic vector of a document without BOW information. In addition, it can also derive the topic vectors for individual words within a document based on their contextualized word embeddings. Experiments across various datasets show that CWTM generates more coherent and meaningful topics compared to existing topic models, while also accommodating unseen words in newly encountered documents.

arxiv情報

著者 Zheng Fang,Yulan He,Rob Procter
発行日 2024-03-06 14:56:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク