GINopic: Topic Modeling with Graph Isomorphism Network

要約

トピック モデリングは、大規模なドキュメント コレクションを分析および探索するために広く使用されているアプローチです。
最近の研究活動では、BERT 埋め込みなどの事前トレーニングされた文脈化言語モデルがトピック モデリングに組み込まれています。
しかし、単語間の相互依存関係によって伝わる本質的な情報価値が無視されることがよくあります。
この研究では、単語間の相関関係を捉えるためのグラフ同型ネットワークに基づくトピックモデリングフレームワークであるGINopicを紹介します。
多様なベンチマーク データセットに対して内部 (定量的および定性的) および外部評価を実施することで、既存のトピック モデルと比較した GINopic の有効性を実証し、トピック モデリングを進歩させる可能性を強調します。

要約(オリジナル)

Topic modeling is a widely used approach for analyzing and exploring large document collections. Recent research efforts have incorporated pre-trained contextualized language models, such as BERT embeddings, into topic modeling. However, they often neglect the intrinsic informational value conveyed by mutual dependencies between words. In this study, we introduce GINopic, a topic modeling framework based on graph isomorphism networks to capture the correlation between words. By conducting intrinsic (quantitative as well as qualitative) and extrinsic evaluations on diverse benchmark datasets, we demonstrate the effectiveness of GINopic compared to existing topic models and highlight its potential for advancing topic modeling.

arxiv情報

著者 Suman Adhya,Debarshi Kumar Sanyal
発行日 2024-04-02 17:18:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク