要約
大規模言語モデル (LLM) を利用した質問応答システム (QA) は、ドメイン固有の情報を提供し、不正確な応答や幻覚が生成されるリスクを軽減するために、検索コンポーネントに大きく依存しています。
レトリーバーの評価は情報検索の初期の研究に遡りますが、LLM ベースのチャットボット内でのレトリーバーのパフォーマンスを評価することは依然として課題です。
この研究では、検索拡張生成 (RAG) ベースのチャットボットでレトリーバーを評価するための簡単なベースラインを提案します。
私たちの調査結果は、この評価フレームワークがレトリバーのパフォーマンスのより良いイメージを提供し、QA システムの全体的なパフォーマンスとより連携していることを示しています。
精度、再現率、F1 スコアなどの従来の指標は LLM の能力を完全には捉えていない可能性がありますが、LLM は検索が不完全であっても正確な応答を返すことができるため、私たちの方法では、無関係なコンテキストや潜在的なエラーや幻覚を無視するという LLM の強みを考慮しています。
反応。
要約(オリジナル)
Question answering systems (QA) utilizing Large Language Models (LLMs) heavily depend on the retrieval component to provide them with domain-specific information and reduce the risk of generating inaccurate responses or hallucinations. Although the evaluation of retrievers dates back to the early research in Information Retrieval, assessing their performance within LLM-based chatbots remains a challenge. This study proposes a straightforward baseline for evaluating retrievers in Retrieval-Augmented Generation (RAG)-based chatbots. Our findings demonstrate that this evaluation framework provides a better image of how the retriever performs and is more aligned with the overall performance of the QA system. Although conventional metrics such as precision, recall, and F1 score may not fully capture LLMs’ capabilities – as they can yield accurate responses despite imperfect retrievers – our method considers LLMs’ strengths to ignore irrelevant contexts, as well as potential errors and hallucinations in their responses.
arxiv情報
著者 | Ashkan Alinejad,Krtin Kumar,Ali Vahdat |
発行日 | 2024-06-10 16:46:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google