要約
トピックモデルは、大規模なドキュメントコレクションからセマンティック情報を抽出するための一般的なアプローチです。
ただし、最近の研究では、これらのモデルによって生成されたトピックは、しばしば人間の意図とうまく整合していないことが示唆されています。
ラベルや著者情報などのメタデータは利用可能ですが、神経トピックモデルにはまだ効果的に組み込まれていません。
このギャップに対処するために、神経トピックモデルをラベルと著者情報の両方に合わせる新しい方法であるFantomを紹介します。
Fantomは、利用可能な場合にこのメタデータを含めることを可能にし、各トピックの解釈可能なトピックと著者分布を作成します。
私たちのアプローチは、ラベル、トピック、著者の間のアライメントを学習することにより、従来のトピックモデルよりも大きな表現力を示しています。
実験結果は、Fantomがトピックの品質とアラインメントの両方の観点から既存のモデルを改善することを示しています。
さらに、著者の関心と類似性を特定します。
要約(オリジナル)
Topic models are a popular approach for extracting semantic information from large document collections. However, recent studies suggest that the topics generated by these models often do not align well with human intentions. Although metadata such as labels and authorship information are available, it has not yet been effectively incorporated into neural topic models. To address this gap, we introduce FANToM, a novel method to align neural topic models with both labels and authorship information. FANToM allows for the inclusion of this metadata when available, producing interpretable topics and author distributions for each topic. Our approach demonstrates greater expressiveness than conventional topic models by learning the alignment between labels, topics, and authors. Experimental results show that FANToM improves existing models in terms of both topic quality and alignment. Additionally, it identifies author interests and similarities.
arxiv情報
著者 | Mayank Nagda,Phil Ostheimer,Sophie Fellenz |
発行日 | 2025-02-07 12:11:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google