Finding Already Debunked Narratives via Multistage Retrieval: Enabling Cross-Lingual, Cross-Dataset and Zero-Shot Learning

要約

すでに誤りが暴かれた物語を検索するタスクは、すでに事実確認された物語を検出することを目的としています。
すでに誤りが暴かれている主張を検出できれば、プロのファクトチェッカーによる手作業の労力が軽減されるだけでなく、誤った情報の拡散を遅らせることにも貢献できます。
主に、すぐに利用できるデータが不足しているため、これは、特に言語を越えたタスク、つまり、チェック対象のオンライン投稿の言語とは異なる言語でのファクトチェック記事の検索を考慮した場合、十分に研究されていない問題です。
この論文は、(i)事実確認記事のデータベースへのクエリとしてツイートを使用し、すでに誤りが暴かれた物語の言語を越えた検索の研究を可能にする新しいデータセットを作成することによってこのギャップを埋めています。
(ii) このタスク用に、微調整された既製の多言語事前トレーニング済み Transformer モデルのベンチマークを行うための広範な実験を提示します。
(iii) この言語を超えた誤り暴きの検索タスクを改良段階と再ランク付け段階に分割する、新しい多段階フレームワークを提案します。
結果は、すでに誤りが暴かれた物語を言語を超えて検索するタスクは困難であり、既製の Transformer モデルは強力な語彙ベースのベースライン (BM25) を上回るパフォーマンスを発揮できないことを示しています。
それにもかかわらず、私たちの多段階取得フレームワークは堅牢であり、ほとんどのシナリオで BM25 を上回り、モデルのパフォーマンスを大きく損なうことなくクロスドメインおよびゼロショット学習を可能にします。

要約(オリジナル)

The task of retrieving already debunked narratives aims to detect stories that have already been fact-checked. The successful detection of claims that have already been debunked not only reduces the manual efforts of professional fact-checkers but can also contribute to slowing the spread of misinformation. Mainly due to the lack of readily available data, this is an understudied problem, particularly when considering the cross-lingual task, i.e. the retrieval of fact-checking articles in a language different from the language of the online post being checked. This paper fills this gap by (i) creating a novel dataset to enable research on cross-lingual retrieval of already debunked narratives, using tweets as queries to a database of fact-checking articles; (ii) presenting an extensive experiment to benchmark fine-tuned and off-the-shelf multilingual pre-trained Transformer models for this task; and (iii) proposing a novel multistage framework that divides this cross-lingual debunk retrieval task into refinement and re-ranking stages. Results show that the task of cross-lingual retrieval of already debunked narratives is challenging and off-the-shelf Transformer models fail to outperform a strong lexical-based baseline (BM25). Nevertheless, our multistage retrieval framework is robust, outperforming BM25 in most scenarios and enabling cross-domain and zero-shot learning, without significantly harming the model’s performance.

arxiv情報

著者 Iknoor Singh,Carolina Scarton,Xingyi Song,Kalina Bontcheva
発行日 2023-08-10 16:33:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.IR, cs.LG, cs.SI パーマリンク