InfoCTM: A Mutual Information Maximization Perspective of Cross-Lingual Topic Modeling

要約

言語間トピック モデルは、整合性のある潜在トピックを明らかにすることにより、言語間テキスト分析に普及してきました。
ただし、既存の手法のほとんどは、さらなる分析を妨げる反復トピックの生成や、カバレッジの低い辞書によるパフォーマンスの低下という問題があります。
本稿では、相互情報を用いたクロスリンガルトピックモデリング(InfoCTM)を提案します。
以前の研究のような直接的な整列の代わりに、我々は相互情報法を用いたトピック整列を提案する。
これは、トピックを適切に配置し、単語のトピック表現の劣化を防ぐための正則化として機能し、トピックの繰り返しの問題を軽減します。
辞書のカバー範囲が低い問題に対処するために、特定の辞書の翻訳を超えてトピックの整合性を図るために、より多くのリンクされた言語間語彙リンク方法を提案します。
英語、中国語、日本語のデータセットに対する広範な実験により、私たちの手法が最先端のベースラインを上回っており、より一貫性があり、多様性があり、適切に調整されたトピックが生成され、言語を超えた分類タスクの転送可能性が向上していることが実証されました。

要約(オリジナル)

Cross-lingual topic models have been prevalent for cross-lingual text analysis by revealing aligned latent topics. However, most existing methods suffer from producing repetitive topics that hinder further analysis and performance decline caused by low-coverage dictionaries. In this paper, we propose the Cross-lingual Topic Modeling with Mutual Information (InfoCTM). Instead of the direct alignment in previous work, we propose a topic alignment with mutual information method. This works as a regularization to properly align topics and prevent degenerate topic representations of words, which mitigates the repetitive topic issue. To address the low-coverage dictionary issue, we further propose a cross-lingual vocabulary linking method that finds more linked cross-lingual words for topic alignment beyond the translations of a given dictionary. Extensive experiments on English, Chinese, and Japanese datasets demonstrate that our method outperforms state-of-the-art baselines, producing more coherent, diverse, and well-aligned topics and showing better transferability for cross-lingual classification tasks.

arxiv情報

著者 Xiaobao Wu,Xinshuai Dong,Thong Nguyen,Chaoqun Liu,Liangming Pan,Anh Tuan Luu
発行日 2024-03-27 10:53:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク