要約
馴染みのない文書から情報を求めるとき、ユーザーは文書では答えられない質問をすることがよくあります。
既存の大規模言語モデル (LLM) は、これらの答えのない質問を特定しますが、ユーザーが質問を再定式化するのを支援しないため、全体的な有用性が低下します。
私たちは、ドキュメントに基づいた質問応答のための既存および新しいデータセットで構成される評価ベンチマークである CouldAsk を厳選し、特に答えられない質問の再定式化を研究するように設計されています。
私たちは、CouldAsk で最先端のオープンソースおよび独自の LLM を評価します。
この結果は、質問を再定式化する際のこれらのモデルの機能が限られていることを示しています。
具体的には、GPT-4 と Llama2-7B が質問を再定式化できる確率は、それぞれ 26% と 12% にすぎません。
エラー分析の結果、失敗した再定式化の 62% は、単に質問を言い換えたり、同一の質問を生成したりするだけのモデルに起因していることがわかりました。
ベンチマークと実験を再現するコードを公開します。
要約(オリジナル)
When seeking information from unfamiliar documents, users frequently pose questions that cannot be answered by the documents. While existing large language models (LLMs) identify these unanswerable questions, they do not assist users in reformulating their questions, thereby reducing their overall utility. We curate CouldAsk, an evaluation benchmark composed of existing and new datasets for document-grounded question answering, specifically designed to study reformulating unanswerable questions. We evaluate state-of-the-art open-source and proprietary LLMs on CouldAsk. The results demonstrate the limited capabilities of these models in reformulating questions. Specifically, GPT-4 and Llama2-7B successfully reformulate questions only 26% and 12% of the time, respectively. Error analysis shows that 62% of the unsuccessful reformulations stem from the models merely rephrasing the questions or even generating identical questions. We publicly release the benchmark and the code to reproduce the experiments.
arxiv情報
著者 | Wenting Zhao,Ge Gao,Claire Cardie,Alexander M. Rush |
発行日 | 2024-07-24 17:59:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google