要約
大規模な言語モデル(LLMS)は、さまざまな推論タスクで印象的な能力を実証していますが、特に新しい知識やロングテールの知識を含む複雑で知識集約的なマルチホップクエリで大きな課題に直面しています。
既存のベンチマークは、これらの課題に完全に対処できないことがよくあります。
このギャップを埋めるために、MintQA(新しいテールの知識に関するマルチホップ質問の回答)を紹介します。これは、4つの重要な次元にわたるマルチホップ推論のLLMS機能を評価するための包括的なベンチマーク:質問処理戦略、サブ質問生成、検索 –
増強された生成、および反復的または動的な分解と検索。
Mintqaは、新しい知識を評価するための10,479の質問回答ペアと、長期尾の知識を評価するための17,887ペアで構成されており、各質問には対応するサブ質問と回答が装備されています。
Mintqaでの22の最先端のLLMの体系的な評価は、特に新しい知識または不人気の知識の処理において、複雑な知識ベースのクエリを処理する能力に大きな制限を明らかにしています。
私たちの調査結果は、重要な課題を強調し、マルチホップの推論機能を進めるための洞察を提供します。
Mintqaベンチマークはhttps://github.com/probe2/multi-hop/で入手できます。
要約(オリジナル)
Large language models (LLMs) have demonstrated impressive capabilities in various reasoning tasks but face significant challenges with complex, knowledge-intensive multi-hop queries, particularly those involving new or long-tail knowledge. Existing benchmarks often fail to fully address these challenges. To bridge this gap, we introduce MINTQA (Multi-hop Question Answering on New and Tail Knowledge), a comprehensive benchmark to evaluate LLMs’ capabilities in multi-hop reasoning across four critical dimensions: question handling strategy, sub-question generation, retrieval-augmented generation, and iterative or dynamic decomposition and retrieval. MINTQA comprises 10,479 question-answer pairs for evaluating new knowledge and 17,887 pairs for assessing long-tail knowledge, with each question equipped with corresponding sub-questions and answers. Our systematic evaluation of 22 state-of-the-art LLMs on MINTQA reveals significant limitations in their ability to handle complex knowledge base queries, particularly in handling new or unpopular knowledge. Our findings highlight critical challenges and offer insights for advancing multi-hop reasoning capabilities. The MINTQA benchmark is available at https://github.com/probe2/multi-hop/.
arxiv情報
著者 | Jie He,Nan Hu,Wanqiu Long,Jiaoyan Chen,Jeff Z. Pan |
発行日 | 2025-01-28 16:28:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google