要約
LLMは数学とコーディング関連の推論タスクで大きなパフォーマンスを示していますが、他の形式の推論に関するLLMの推論能力は依然としてオープンな問題です。
ここでは、請求検証の観点から推論の問題を調べます。
証拠と組み合わせた主張を、検証に必要な原子推論タイプに分解するように設計されたフレームワークを提案します。
このフレームワークを使用して、LLMSの演ductive的で逆乳製の推論能力を評価するために、実世界の主張を組み込んだ最初のクレーム検証ベンチマークであるRECVを作成します。
ベンチマークは3つのデータセットで構成されており、複雑さを高めるという推論の問題をカバーしています。
複数のプロンプト設定の下で、3つの最先端の独自のLLMを評価します。
私たちの結果は、LLMSは演ductive的な推論の問題に対処できるが、誘ductiveな推論の場合に一貫して失敗することを示しています。
さらに、根拠の生成でLLMを強化することは必ずしも有益ではないことを観察します。
それにもかかわらず、生成された理論的根拠は、特に演ductive的な推論の場合において、人間によって提供されたものと意味的に類似していることがわかります。
要約(オリジナル)
Although LLMs have shown great performance on Mathematics and Coding related reasoning tasks, the reasoning capabilities of LLMs regarding other forms of reasoning are still an open problem. Here, we examine the issue of reasoning from the perspective of claim verification. We propose a framework designed to break down any claim paired with evidence into atomic reasoning types that are necessary for verification. We use this framework to create RECV, the first claim verification benchmark, incorporating real-world claims, to assess the deductive and abductive reasoning capabilities of LLMs. The benchmark comprises of three datasets, covering reasoning problems of increasing complexity. We evaluate three state-of-the-art proprietary LLMs under multiple prompt settings. Our results show that while LLMs can address deductive reasoning problems, they consistently fail in cases of abductive reasoning. Moreover, we observe that enhancing LLMs with rationale generation is not always beneficial. Nonetheless, we find that generated rationales are semantically similar to those provided by humans, especially in deductive reasoning cases.
arxiv情報
著者 | John Dougrez-Lewis,Mahmud Elahi Akhter,Federico Ruggeri,Sebastian Löbbers,Yulan He,Maria Liakata |
発行日 | 2025-06-17 17:05:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google