Breaking Language Barriers with MMTweets: Advancing Cross-Lingual Debunked Narrative Retrieval for Fact-Checking

要約

以前に誤りが暴かれた物語を見つけるには、すでに事実確認が行われた主張を特定する必要があります。
別の言語で数か月間真実を暴くことができるにもかかわらず、同様の虚偽の主張が複数の言語で持続する場合、問題はさらに深刻になります。
したがって、希少なファクトチェッカーのリソースを最大限に活用するには、複数の言語で誤りの証明 (またはファクトチェック) を自動的に見つけることが重要です。
主に、すぐに利用できるデータが不足しているため、これは、特に言語をまたがるシナリオ、つまりチェック対象のオンライン投稿の言語とは異なる言語での誤りの証明の取得を考慮した場合、十分に研究されていない問題です。
この研究では、言語を超えた誤りを暴いたナラティブ検索を導入し、次の方法でこの研究ギャップに対処します。(i) 多言語誤情報ツイート (MMTweets) を作成します。これは、言語をまたいだペア、画像、人間による注釈、きめ細かいラベルを特徴とする際立ったデータセットです。
同等のリソースと比較して包括的なリソースになります。
(ii) 最先端の言語横断検索モデルのベンチマークとなる大規模な実験を実施し、タスクに合わせた多段階検索手法を導入する。
(iii) MMTweets 内での言語間およびデータセット間の転送機能について検索モデルを包括的に評価し、検索遅延分析を実施します。
MMTweets は言語を超えた誤りを暴く物語検索に課題を提示し、検索モデルの改善の余地がある領域を浮き彫りにしていることがわかりました。
それにもかかわらず、この研究は、MMTweets データセットを作成し、事実確認の取り組みを強化するために誤りが暴かれた物語検索モデルを最適化するための貴重な洞察を提供します。
データセットとアノテーション コードブックは、https://doi.org/10.5281/zenodo.10637161 で公開されています。

要約(オリジナル)

Finding previously debunked narratives involves identifying claims that have already undergone fact-checking. The issue intensifies when similar false claims persist in multiple languages, despite the availability of debunks for several months in another language. Hence, automatically finding debunks (or fact-checks) in multiple languages is crucial to make the best use of scarce fact-checkers’ resources. Mainly due to the lack of readily available data, this is an understudied problem, particularly when considering the cross-lingual scenario, i.e. the retrieval of debunks in a language different from the language of the online post being checked. This study introduces cross-lingual debunked narrative retrieval and addresses this research gap by: (i) creating Multilingual Misinformation Tweets (MMTweets): a dataset that stands out, featuring cross-lingual pairs, images, human annotations, and fine-grained labels, making it a comprehensive resource compared to its counterparts; (ii) conducting an extensive experiment to benchmark state-of-the-art cross-lingual retrieval models and introducing multistage retrieval methods tailored for the task; and (iii) comprehensively evaluating retrieval models for their cross-lingual and cross-dataset transfer capabilities within MMTweets, and conducting a retrieval latency analysis. We find that MMTweets presents challenges for cross-lingual debunked narrative retrieval, highlighting areas for improvement in retrieval models. Nonetheless, the study provides valuable insights for creating MMTweets datasets and optimising debunked narrative retrieval models to empower fact-checking endeavours. The dataset and annotation codebook are publicly available at https://doi.org/10.5281/zenodo.10637161.

arxiv情報

著者 Iknoor Singh,Carolina Scarton,Xingyi Song,Kalina Bontcheva
発行日 2024-08-20 10:24:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.IR, cs.LG, cs.SI パーマリンク