CHECKWHY: Causal Fact Verification via Argument Structure

要約

事実検証タスクの複雑さが増すにつれ、「思慮深い」推論能力に対する懸念が高まっています。
ただし、最近の事実検証ベンチマークは、クレーム内の狭い範囲の意味論的事実のチェックに主に焦点を当てており、明示的な論理的推論プロセスが不足しています。
この論文では、厳密な推論ステップを通じてクレーム内の因果関係の真実性をチェックするという、新しい因果関係事実検証タスクに合わせた挑戦的なデータセットである CheckWhy を紹介します。
CheckWhy は、19,000 を超える「なぜ」の主張、証拠、議論の構造の三つ組で構成されており、支持、反論、および不十分な情報ラベルが付いています。
各議論の構造は、基礎的な証拠から始まり、主張の確立に向けて進む推論プロセスを表す、接続された証拠で構成されています。
最先端のモデルを用いた広範な実験を通じて、因果関係の検証に議論の構造を組み込むことの重要性を検証します。
さらに、引数構造生成の自動化および人間による評価では、微調整されたモデルや思考連鎖を促す LLM によって満足のいく引数構造を生成することが困難であることが明らかになり、将来の改善の余地がかなり残されています。

要約(オリジナル)

With the growing complexity of fact verification tasks, the concern with ‘thoughtful’ reasoning capabilities is increasing. However, recent fact verification benchmarks mainly focus on checking a narrow scope of semantic factoids within claims and lack an explicit logical reasoning process. In this paper, we introduce CheckWhy, a challenging dataset tailored to a novel causal fact verification task: checking the truthfulness of the causal relation within claims through rigorous reasoning steps. CheckWhy consists of over 19K ‘why’ claim-evidence-argument structure triplets with supports, refutes, and not enough info labels. Each argument structure is composed of connected evidence, representing the reasoning process that begins with foundational evidence and progresses toward claim establishment. Through extensive experiments on state-of-the-art models, we validate the importance of incorporating the argument structure for causal fact verification. Moreover, the automated and human evaluation of argument structure generation reveals the difficulty in producing satisfying argument structure by fine-tuned models or Chain-of-Thought prompted LLMs, leaving considerable room for future improvements.

arxiv情報

著者 Jiasheng Si,Yibo Zhao,Yingjie Zhu,Haiyang Zhu,Wenpeng Lu,Deyu Zhou
発行日 2024-08-20 15:03:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク