RetrievalQA: Assessing Adaptive Retrieval-Augmented Generation for Short-form Open-Domain Question Answering

要約

適応型検索拡張生成 (ARAG) は、無差別に検索するのではなく、クエリの検索の必要性を動的に判断して、ソース情報の効率と関連性を高めることを目的としています。
しかし、これまでの研究では ARAG アプローチの評価がほとんど見落とされており、その有効性が十分に研究されていませんでした。
この研究では、新しい世界とロングテールの知識をカバーする 1,271 の短い形式の質問で構成されるベンチマーク RetrievalQA を紹介します。
質問に答えるために必要な知識が LLM にはありません。
したがって、正しく答えるためには外部情報を取得する必要があります。
これにより、RetrievalQA は既存の ARAG メソッドを評価するのに適したテストベッドになります。
キャリブレーションベースの手法はしきい値調整に大きく依存している一方、バニラのプロンプトでは LLM が信頼性の高い取得決定を下すように導くには不十分であることが観察されています。
私たちの調査結果に基づいて、私たちは、LLM がキャリブレーションや追加のトレーニングなしで検索の必要性を評価するのに役立つ、シンプルかつ効果的な方法である時間認識適応型検索 (TA-ARE) を提案します。
データセットとコードは \url{https://github.com/hyintell/RetrievalQA} で入手できます。

要約(オリジナル)

Adaptive retrieval-augmented generation (ARAG) aims to dynamically determine the necessity of retrieval for queries instead of retrieving indiscriminately to enhance the efficiency and relevance of the sourced information. However, previous works largely overlook the evaluation of ARAG approaches, leading to their effectiveness being understudied. This work presents a benchmark, RetrievalQA, comprising 1,271 short-form questions covering new world and long-tail knowledge. The knowledge necessary to answer the questions is absent from LLMs; therefore, external information must be retrieved to answer correctly. This makes RetrievalQA a suitable testbed to evaluate existing ARAG methods. We observe that calibration-based methods heavily rely on threshold tuning, while vanilla prompting is inadequate for guiding LLMs to make reliable retrieval decisions. Based on our findings, we propose Time-Aware Adaptive Retrieval (TA-ARE), a simple yet effective method that helps LLMs assess the necessity of retrieval without calibration or additional training. The dataset and code will be available at \url{https://github.com/hyintell/RetrievalQA}

arxiv情報

著者 Zihan Zhang,Meng Fang,Ling Chen
発行日 2024-02-26 09:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク