Bidirectional Topic Matching: Quantifying Thematic Overlap Between Corpora Through Topic Modelling

要約

この研究では、コーパス間のテーマの重複と相違を定量化する、コーパス間トピック モデリングの新しい方法である双方向トピック マッチング (BTM) を紹介します。
BTM は、BERTopic、Top2Vec、Latent Dirichlet Allocation (LDA) などのさまざまなトピック モデリング アプローチを組み込むことができる柔軟なフレームワークです。
BTM はデュアルモデル アプローチを採用しており、コーパスごとに個別のトピック モデルをトレーニングし、それらを相互に適用して包括的なコーパス間の比較を可能にします。
この方法論により、共通のテーマと固有のトピックの特定が容易になり、テーマの関係についての微妙な洞察が得られます。
コサイン類似度ベースの手法に対する検証では、強力な一致メトリクスと外れ値トピックの処理における明確な利点を備えた BTM の堅牢性が実証されています。
気候ニュース記事のケーススタディでは、BTM の有用性を紹介し、気候変動と気候変動に焦点を当てたコーパスのテーマの重要な重複と区別を明らかにしています。
BTM の柔軟性と精度により、BTM は政治的言説分析から学際的な研究に至るまで、さまざまなアプリケーションにとって価値のあるツールになります。
BTM は、共有トピック分析と独自のトピック分析を統合することにより、テーマの関係を調査するための包括的なフレームワークを提供し、多言語および動的なデータセットへの拡張の可能性を備えています。
この研究は、BTM の方法論的貢献と、さまざまな領域にわたる談話分析を前進させるその能力に焦点を当てています。

要約(オリジナル)

This study introduces Bidirectional Topic Matching (BTM), a novel method for cross-corpus topic modeling that quantifies thematic overlap and divergence between corpora. BTM is a flexible framework that can incorporate various topic modeling approaches, including BERTopic, Top2Vec, and Latent Dirichlet Allocation (LDA). BTM employs a dual-model approach, training separate topic models for each corpus and applying them reciprocally to enable comprehensive cross-corpus comparisons. This methodology facilitates the identification of shared themes and unique topics, providing nuanced insights into thematic relationships. Validation against cosine similarity-based methods demonstrates the robustness of BTM, with strong agreement metrics and distinct advantages in handling outlier topics. A case study on climate news articles showcases BTM’s utility, revealing significant thematic overlaps and distinctions between corpora focused on climate change and climate action. BTM’s flexibility and precision make it a valuable tool for diverse applications, from political discourse analysis to interdisciplinary studies. By integrating shared and unique topic analyses, BTM offers a comprehensive framework for exploring thematic relationships, with potential extensions to multilingual and dynamic datasets. This work highlights BTM’s methodological contributions and its capacity to advance discourse analysis across various domains.

arxiv情報

著者 Raven Adam,Marie Lisa Kogler
発行日 2024-12-24 12:02:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク