QuanTemp: A real-world open-domain benchmark for fact-checking numerical claims

要約

デジタル時代に増大する誤った情報に対処するために、自動化されたファクトチェックが大きな関心を集めています。
既存のシステムは主にウィキペディア上の合成主張に焦点を当てており、現実世界の主張に関しても注目すべき進歩が見られました。
この取り組みでは、数値的主張のみに焦点を当てた多様なマルチドメイン データセットである Numtemp をリリースします。これは、時間的、統計的、多様な側面を、きめ細かいメタデータと漏洩のない証拠コレクションで網羅します。
これは、主に合成クレームに焦点を当てた既存の研究では対処できなかった、複雑で正確な情報が不足していることが多い現実世界の数値クレームを検証するという課題に対処します。
私たちは、数値的主張を検証するタスクに対する既存のソリューションの限界を評価し、定量化します。
また、クレーム分解ベースの手法、数値理解ベースのモデルも評価しており、最良のベースラインはマクロ F1 58.32 を達成しています。
これは、Numtemp が数値クレーム検証のための困難な評価セットとして機能することを示しています。

要約(オリジナル)

Automated fact checking has gained immense interest to tackle the growing misinformation in the digital era. Existing systems primarily focus on synthetic claims on Wikipedia, and noteworthy progress has also been made on real-world claims. In this work, we release Numtemp, a diverse, multi-domain dataset focused exclusively on numerical claims, encompassing temporal, statistical and diverse aspects with fine-grained metadata and an evidence collection without leakage. This addresses the challenge of verifying real-world numerical claims, which are complex and often lack precise information, not addressed by existing works that mainly focus on synthetic claims. We evaluate and quantify the limitations of existing solutions for the task of verifying numerical claims. We also evaluate claim decomposition based methods, numerical understanding based models and our best baselines achieves a macro-F1 of 58.32. This demonstrates that Numtemp serves as a challenging evaluation set for numerical claim verification.

arxiv情報

著者 Venktesh V,Abhijit Anand,Avishek Anand,Vinay Setty
発行日 2024-04-30 08:55:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク