Give Me More Details: Improving Fact-Checking with Latent Retrieval

要約

証拠は自動化されたファクトチェックにおいて重要な役割を果たします。
現実の主張を検証する場合、既存の事実確認システムは、証拠の文が与えられていると仮定するか、検索エンジンから返された検索スニペットを使用します。
このような方法は証拠収集の課題を無視しており、現実世界の主張を検証するのに十分な情報を提供できない可能性があります。
より良い事実確認システムの構築を目指して、ソース文書の全文を証拠として組み込み、2 つの充実したデータセットを導入することを提案します。
1 つ目は多言語データセットで、2 つ目は単言語 (英語) です。
さらに、文書から証拠文を共同抽出し、主張の検証を実行するための潜在変数モデルを開発します。
実験によれば、たとえ証拠となる文に注釈が付けられていない場合でも、ソース文書を含めることで十分な文脈上の手がかりが得られることがわかりました。
提案されたシステムは、さまざまな設定の下で最もよく報告されたモデルに対して大幅な改善を達成できます。

要約(オリジナル)

Evidence plays a crucial role in automated fact-checking. When verifying real-world claims, existing fact-checking systems either assume the evidence sentences are given or use the search snippets returned by the search engine. Such methods ignore the challenges of collecting evidence and may not provide sufficient information to verify real-world claims. Aiming at building a better fact-checking system, we propose to incorporate full text from source documents as evidence and introduce two enriched datasets. The first one is a multilingual dataset, while the second one is monolingual (English). We further develop a latent variable model to jointly extract evidence sentences from documents and perform claim verification. Experiments indicate that including source documents can provide sufficient contextual clues even when gold evidence sentences are not annotated. The proposed system is able to achieve significant improvements upon best-reported models under different settings.

arxiv情報

著者 Xuming Hu,Zhijiang Guo,Guanyu Wu,Lijie Wen,Philip S. Yu
発行日 2023-05-25 15:01:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク