要約
検証を必要とするクレームを特定することは、特にソーシャルメディアプラットフォームでの誤った情報の拡散を考えると、自動化された事実確認における重要なタスクです。
タスクの大幅な進歩にもかかわらず、オンライン談話で一般的な多言語データやマルチモーダルデータを扱うなど、開かれた課題が残っています。
多言語の課題に対処するために、最近の努力は、事前に訓練された多言語モデルの微調整に焦点を当てています。
これらのモデルは複数の言語を処理できますが、ソーシャルメディアに広がるクレームを検出するために、言語間知識を効果的に転送する能力は依然として推奨されていません。
この論文では、あらゆる言語で書かれたクレームを処理するためによく一般化するエンティティを意識しているクロスリングルクレーム検出モデルであるEx-Claimを紹介します。
このモデルは、指定されたエンティティ認識とエンティティから派生したエンティティ情報を活用し、テクニックをリンクして、トレーニング中に見られた言語と目に見えない両方の言語の言語レベルのパフォーマンスを改善します。
さまざまなソーシャルメディアプラットフォームの3つのデータセットで実施された広範な実験は、提案されたモデルが27の言語でベースラインを大幅に上回り、トレーニングデータが限られていても、最高の知識転送を達成することを示しています。
要約(オリジナル)
Identifying claims requiring verification is a critical task in automated fact-checking, especially given the proliferation of misinformation on social media platforms. Despite significant progress in the task, there remain open challenges such as dealing with multilingual and multimodal data prevalent in online discourse. Addressing the multilingual challenge, recent efforts have focused on fine-tuning pre-trained multilingual language models. While these models can handle multiple languages, their ability to effectively transfer cross-lingual knowledge for detecting claims spreading on social media remains under-explored. In this paper, we introduce EX-Claim, an entity-aware cross-lingual claim detection model that generalizes well to handle claims written in any language. The model leverages entity information derived from named entity recognition and entity linking techniques to improve the language-level performance of both seen and unseen languages during training. Extensive experiments conducted on three datasets from different social media platforms demonstrate that our proposed model significantly outperforms the baselines, across 27 languages, and achieves the highest rate of knowledge transfer, even with limited training data.
arxiv情報
著者 | Rrubaa Panchendrarajan,Arkaitz Zubiaga |
発行日 | 2025-03-20 11:33:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google