Face the Facts! Evaluating RAG-based Fact-checking Pipelines in Realistic Settings

要約

自然言語処理および生成システムは、プロのファクトチェッカーの費用と時間のかかる仕事を補完し、合理化する可能性を最近示しました。
この作業では、検索拡張生成 (RAG) パラダイムに基づいて自動ファクトチェックを行うために、現在の最先端のパイプラインのいくつかの制約を解除します。
私たちの目標は、より現実的なシナリオの下で、評決を生成するための RAG ベースの方法、つまり主張の真実性について議論する短いテキストをベンチマークし、文体的に複雑な主張と異種ながらも信頼できる知識ベースに基づいて評価することです。
私たちの調査結果は、複雑な状況を示しています。たとえば、LLM ベースの検索機能は他の検索技術よりも優れていますが、依然として異種の知識ベースに苦戦しています。
より大きなモデルは判定の忠実性に優れていますが、より小さなモデルはコンテキストへの準拠性が高く、人間の評価では情報提供性に関してはゼロショットおよびワンショットのアプローチが好まれ、感情的な整合性については微調整されたモデルが好まれます。

要約(オリジナル)

Natural Language Processing and Generation systems have recently shown the potential to complement and streamline the costly and time-consuming job of professional fact-checkers. In this work, we lift several constraints of current state-of-the-art pipelines for automated fact-checking based on the Retrieval-Augmented Generation (RAG) paradigm. Our goal is to benchmark, under more realistic scenarios, RAG-based methods for the generation of verdicts – i.e., short texts discussing the veracity of a claim – evaluating them on stylistically complex claims and heterogeneous, yet reliable, knowledge bases. Our findings show a complex landscape, where, for example, LLM-based retrievers outperform other retrieval techniques, though they still struggle with heterogeneous knowledge bases; larger models excel in verdict faithfulness, while smaller models provide better context adherence, with human evaluations favouring zero-shot and one-shot approaches for informativeness, and fine-tuned models for emotional alignment.

arxiv情報

著者 Daniel Russo,Stefano Menini,Jacopo Staiano,Marco Guerini
発行日 2024-12-19 18:57:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク