TrendFact: A Benchmark for Explainable Hotspot Perception in Fact-Checking with Natural Language Explanation

要約

事実検証は依然として基本的なものですが、説明生成は、解釈可能な理論的根拠を作成し、包括的な検証プロセスを促進することにより、信頼できる事実確認システムの重要なイネーブラーとして機能します。
ただし、現在のベンチマークには、衝撃評価の欠如、高品質の説明的な注釈の不足、英語中心のバイアスなどの制限があります。
これらに対処するために、事実検証、証拠の検索、および説明生成タスクを包括的に評価する最初のホットスポット認識ファクトチェックベンチマークであるTrendFactを紹介します。
TrendFactは、トレンドプラットフォームと専門的なファクトチェックデータセットから供給された7,643の慎重にキュレーションされたサンプルと、公開日を伴う66,217エントリの証拠ライブラリで構成されています。
さらに、システムの説明の一貫性とホットスポットの知覚機能を評価することにより、既存のベンチマークを補完するために、ECSとHCPIの2つのメトリックをさらに提案します。
実験結果は、DeepSeek-R1などの高度なRLMを含む現在の事実確認システムは、TrendFactで評価されたときに大きな制限に直面し、それによってもたらされる現実世界の課題を強調していることを示しています。
大規模な言語モデル(RLM)の推論の事実確認能力を強化するために、動的な証拠の増強、証拠の三角測量、および反復的自己反射メカニズムを統合するFactisRを提案します。
したがって、FactISRはRLMのパフォーマンスを効果的に改善し、説明可能で複雑な事実確認のための新しい洞察を提供します。

要約(オリジナル)

Although fact verification remains fundamental, explanation generation serves as a critical enabler for trustworthy fact-checking systems by producing interpretable rationales and facilitating comprehensive verification processes. However, current benchmarks have limitations that include the lack of impact assessment, insufficient high-quality explanatory annotations, and an English-centric bias. To address these, we introduce TrendFact, the first hotspot perception fact-checking benchmark that comprehensively evaluates fact verification, evidence retrieval, and explanation generation tasks. TrendFact consists of 7,643 carefully curated samples sourced from trending platforms and professional fact-checking datasets, as well as an evidence library of 66,217 entries with publication dates. We further propose two metrics, ECS and HCPI, to complement existing benchmarks by evaluating the system’s explanation consistency and hotspot perception capability, respectively. Experimental results show that current fact-checking systems, including advanced RLMs such as DeepSeek-R1, face significant limitations when evaluated on TrendFact, highlighting the real-world challenges posed by it. To enhance the fact-checking capabilities of reasoning large language models (RLMs), we propose FactISR, which integrates dynamic evidence augmentation, evidence triangulation, and an iterative self-reflection mechanism. Accordingly, FactISR effectively improves RLM performance, offering new insights for explainable and complex fact-checking.

arxiv情報

著者 Xiaocheng Zhang,Xi Wang,Yifei Lu,Jianing Wang,Zhuangzhuang Ye,Mengjiao Bao,Peng Yan,Xiaohong Su
発行日 2025-05-23 15:31:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク