要約
言語モデルは、検索などのツールの使用法によって拡張される可能性があり、質問に答えるための頼りになる手段になりつつあります。
現実世界の設定で質問を理解して答えるには、多くの場合、さまざまなソースから情報を取得し、洞察を抽出するためにデータを処理および集計し、新しい表、チャート、インフォグラフィックなどの構造化された成果物の形式で複雑な結果を提示する必要があります。
このペーパーでは、回答を得るために複数のソースにわたる情報からテーブルを構築する必要がある、初のオープン ドメイン質問応答データセットである TANQ を紹介します。
結果として得られるテーブル内のすべてのセルの完全なソース帰属を公開し、オープン、オラクル、クローズドブックのセットアップで最先端の言語モデルをベンチマークします。
私たちの最高のパフォーマンスのベースラインである GPT4 は、F1 総合スコア 29.1 に達し、人間のパフォーマンスよりも 19.7 ポイント遅れています。
マルチホップ推論、数学演算、単位変換など、このタスクに必要なさまざまなスキルなど、さまざまなデータセット属性にわたってベースラインのパフォーマンスを分析します。
さらに、モデルによって生成された回答における一般的な失敗について説明し、TANQ が多くの課題を伴う複雑なタスクであることを示唆しています。
要約(オリジナル)
Language models, potentially augmented with tool usage such as retrieval are becoming the go-to means of answering questions. Understanding and answering questions in real-world settings often requires retrieving information from different sources, processing and aggregating data to extract insights, and presenting complex findings in form of structured artifacts such as novel tables, charts, or infographics. In this paper, we introduce TANQ, the first open domain question answering dataset where the answers require building tables from information across multiple sources. We release the full source attribution for every cell in the resulting table and benchmark state-of-the-art language models in open, oracle, and closed book setups. Our best-performing baseline, GPT4 reaches an overall F1 score of 29.1, lagging behind human performance by 19.7 points. We analyse baselines’ performance across different dataset attributes such as different skills required for this task, including multi-hop reasoning, math operations, and unit conversions. We further discuss common failures in model-generated answers, suggesting that TANQ is a complex task with many challenges ahead.
arxiv情報
著者 | Mubashara Akhtar,Chenxi Pang,Andreea Marzoca,Yasemin Altun,Julian Martin Eisenschlos |
発行日 | 2024-05-13 14:07:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google