Evaluating LLMs’ Inherent Multi-hop Reasoning Ability

要約

大規模言語モデル(LLM)は質問応答(QA)タスクを得意とするが、マルチホップQAタスクにおける複数エビデンスの統合に関する多段階推論能力は未解明である。LLMは、文脈から推論するのではなく、内部記憶に依存した回答を生成することがあり、実際の推論能力の評価品質に懸念をもたらす。反実仮想QAタスクは、内部記憶と推論能力を分離することができるが、多段階の推論プロセスを評価することなく、最終的なQAパフォーマンスのみに焦点を当てることは、LLMの真の推論能力を報告するには不十分である。現在のマルチホップQA(MHQA)ベンチマークは、Wikipediaのようなオープンソースのコーパスにアノテーションされた事実に基づくものであり、マルチステップ推論評価には有用であるが、LLMの事前学習段階における潜在的なデータ汚染による限界を示している。この問題に対処するために、我々は、知識編集された最初の反事実のマルチホップQAデータに基づいて、LLMの推論の連鎖のパフォーマンスを共同で評価する新しい評価方法であるInherent Reasoning Evaluation (IRE)法を導入する。IREはサブQAとファイナルQAの評価を通して推論の連鎖を総合的に評価する。我々の比較により、WikipediaベースのベンチマークとIREの間で、いくつかのLLMの性能に大きな隔たりがあることが明らかになり、既存のベンチマークにおけるデータ汚染の問題が明らかになった。我々は、IREベンチマークが信頼できるLLM評価を強化し、促進すると信じている。

要約(オリジナル)

While Large Language Models (LLMs) excel in question-answering (QA) tasks, their multi-step reasoning abilities on multiple evidence integration on Multi-hop QA tasks remain underexplored. LLMs sometimes generate answers that rely on internal memory rather than reasoning given context, which brings concerns about the evaluation quality of real reasoning abilities. The counterfactual QA task can separate internal memory from reasoning abilities, but focusing solely on final-QA performance without evaluating the multi-step reasoning process is insufficient for reporting LLMs’ real reasoning abilities. Current Multi-hop QA (MHQA) benchmarks are factual and annotated on open-source corpora such as Wikipedia, although useful for multi-step reasoning evaluation, showing limitations due to potential data contamination in LLMs pre-training stage. To address this issue, we introduce the Inherent Reasoning Evaluation (IRE) method, a novel evaluation way that jointly evaluates the LLMs’ chain-of-reasoning performance based on the first knowledge-edited counterfactual multi-hop QA data which involves editing the original Wikipedia passages, reducing data contamination risks. The IRE comprehensively assesses reasoning chains through sub-QA and final-QA evaluations. Our comparisons reveal significant performance gaps for several LLMs between Wikipedia-based benchmarks and IRE, deeming data contamination issues in existing benchmarks. We believe that the IRE benchmark will enhance and facilitate trustworthy LLM evaluations.

arxiv情報

著者 Jian Wu,Linyi Yang,Zhen Wang,Manabu Okumura,Yue Zhang
発行日 2024-07-03 15:50:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク