SCITAB: A Challenging Benchmark for Compositional Reasoning and Claim Verification on Scientific Tables

要約

科学的事実の確認は、科学的主張の正確性、信頼性、信頼性を確保するために非常に重要です。
しかし、既存のベンチマークは、主張の多様性、テキストベースの証拠への依存、科学的推論の過度の単純化という点で限界があります。
これらのギャップに対処するために、科学表を使用した構成的推論を必要とする 1,225 の挑戦的な科学的主張で構成される新しいデータセットである SCITAB を紹介します。
SCITAB の主張は実際の科学的記述に基づいており、証拠は現実世界の事実確認シナリオを厳密に反映した表として提示されます。
私たちは、最先端のモデルを使用して SCITAB のベンチマークを確立し、その固有の難しさを明らかにし、既存のプロンプト方法の限界を強調します。
当社のエラー分析では、曖昧な表現や無関係な主張などの固有の課題が特定され、今後の研究の方向性が示唆されます。
コードとデータは https://github.com/XinyuanLu00/SciTab で公開されています。

要約(オリジナル)

Scientific fact-checking is crucial for ensuring the accuracy, reliability, and trustworthiness of scientific claims. However, existing benchmarks are limited in terms of their claim diversity, reliance on text-based evidence, and oversimplification of scientific reasoning. To address these gaps, we introduce SCITAB, a novel dataset comprising 1,225 challenging scientific claims requiring compositional reasoning with scientific tables. The claims in SCITAB are derived from the actual scientific statements, and the evidence is presented as tables, closely mirroring real-world fact-checking scenarios. We establish benchmarks on SCITAB using state-of-the-art models, revealing its inherent difficulty and highlighting limitations in existing prompting methods. Our error analysis identifies unique challenges, including ambiguous expressions and irrelevant claims, suggesting future research directions. The code and the data are publicly available at https://github.com/XinyuanLu00/SciTab.

arxiv情報

著者 Xinyuan Lu,Liangming Pan,Qian Liu,Preslav Nakov,Min-Yen Kan
発行日 2023-05-22 16:13:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク