FanOutQA: A Multi-Hop, Multi-Document Question Answering Benchmark for Large Language Models

要約

日常のシナリオでよく見られる質問のタイプの 1 つは、「ファンアウト」質問、つまり、多数のエンティティに関する情報を見つける必要がある複雑なマルチホップ、複数ドキュメントの推論質問です。
ただし、大規模な言語モデルの中でこの種の質問応答機能を評価するリソースはほとんどありません。
LLM の複雑な推論をより完全に評価するために、知識ベースとして英語版 Wikipedia を使用したファンアウト質問と回答のペアと人による注釈付き分解の高品質データセットである FanOutQA を紹介します。
データセット全体で 3 つのベンチマーク設定を定式化し、GPT-4、LLaMA 2、Claude-2.1、Mixtral-8x7B を含む 7 つの LLM をベンチマークしました。その結果、現代のモデルには長いコンテキストにおけるドキュメント間の依存関係に関する推論を改善する余地がまだあることがわかりました。
https://fanoutqa.com で評価を促すモデルを実行するためのデータセットとオープンソース ツールを提供しています。

要約(オリジナル)

One type of question that is commonly found in day-to-day scenarios is “fan-out” questions, complex multi-hop, multi-document reasoning questions that require finding information about a large number of entities. However, there exist few resources to evaluate this type of question-answering capability among large language models. To evaluate complex reasoning in LLMs more fully, we present FanOutQA, a high-quality dataset of fan-out question-answer pairs and human-annotated decompositions with English Wikipedia as the knowledge base. We formulate three benchmark settings across our dataset and benchmark 7 LLMs, including GPT-4, LLaMA 2, Claude-2.1, and Mixtral-8x7B, finding that contemporary models still have room to improve reasoning over inter-document dependencies in a long context. We provide our dataset and open-source tools to run models to encourage evaluation at https://fanoutqa.com

arxiv情報

著者 Andrew Zhu,Alyssa Hwang,Liam Dugan,Chris Callison-Burch
発行日 2024-06-06 16:41:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク