Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control

要約

検索された生成(RAG)は、外部知識の検索を組み込むことにより、大規模な言語モデル(LLM)の幻覚を緩和するための強力なアプローチとして浮上しました。
ただし、既存のRAGフレームワークは、しばしば無差別に検索を適用し、不必要な場合、または複雑な推論に必要な場合に繰り返し回収できない場合は、非効率性を回復させます。
最近の適応的検索戦略は、これらの検索戦略を適応的にナビゲートしますが、クエリの複雑さに基づいてのみ予測され、ユーザー駆動型の柔軟性が欠けているため、多様なユーザーアプリケーションのニーズに合わせて実行不可能になります。
この論文では、精度コストのトレードオフの動的な調整を可能にする新しいユーザー制御可能なRAGフレームワークを紹介します。
私たちのアプローチは、2つの分類器を活用しています。1つは精度を優先するように訓練され、もう1つは検索効率を優先するためにトレーニングしました。
解釈可能な制御パラメーター$ \ alpha $を介して、ユーザーは特定の要件に基づいて最小コストの検索と高精度の検索の間でシームレスにナビゲートできます。
当社のアプローチは、精度、検索コスト、およびユーザー制御性のバランスを効果的にバランスさせ、実際のアプリケーション向けの実用的で適応性のあるソリューションになることを経験的に実証します。

要約(オリジナル)

Retrieval-Augmented Generation (RAG) has emerged as a powerful approach to mitigate large language model (LLM) hallucinations by incorporating external knowledge retrieval. However, existing RAG frameworks often apply retrieval indiscriminately,leading to inefficiencies-over-retrieving when unnecessary or failing to retrieve iteratively when required for complex reasoning. Recent adaptive retrieval strategies, though adaptively navigates these retrieval strategies, predict only based on query complexity and lacks user-driven flexibility, making them infeasible for diverse user application needs. In this paper, we introduce a novel user-controllable RAG framework that enables dynamic adjustment of the accuracy-cost trade-off. Our approach leverages two classifiers: one trained to prioritize accuracy and another to prioritize retrieval efficiency. Via an interpretable control parameter $\alpha$, users can seamlessly navigate between minimal-cost retrieval and high-accuracy retrieval based on their specific requirements. We empirically demonstrate that our approach effectively balances accuracy, retrieval cost, and user controllability, making it a practical and adaptable solution for real-world applications.

arxiv情報

著者 Jinyan Su,Jennifer Healey,Preslav Nakov,Claire Cardie
発行日 2025-02-17 18:56:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR パーマリンク