要約
検索された生成(RAG)は、外部の知識を利用することで約束を示していますが、その生成プロセスは、取得されたコンテキストの品質と精度に大きく依存します。
大規模な言語モデル(LLM)は、内部暗記とは異なるときに外部から取得したノンパラメトリック知識の正確性を評価するのに苦労し、応答生成中の知識の対立につながります。
この目的のために、検索の関連性に基づいてマルチソースの知識を適応的に活用するための軽量で効果的なアライメント方法である検索選好最適化(RPO)を導入します。
検索関連の暗黙的な表現が導き出され、報酬モデルに組み込まれて、検索評価と応答生成を単一のモデルに統合し、以前の方法が検索の品質を評価するための追加手順を必要とする問題を解決します。
特に、RPOは、トレーニングにおける検索関連の認識を定量化し、数学的障害を克服する唯一のRAG専用アライメントアプローチです。
4つのデータセットでの実験により、RPOは、追加のコンポーネントなしで精度が4〜10%上がることを示しており、その堅牢な一般化を示しています。
要約(オリジナル)
While Retrieval-Augmented Generation (RAG) has exhibited promise in utilizing external knowledge, its generation process heavily depends on the quality and accuracy of the retrieved context. Large language models (LLMs) struggle to evaluate the correctness of non-parametric knowledge retrieved externally when it differs from internal memorization, leading to knowledge conflicts during response generation. To this end, we introduce the Retrieval Preference Optimization (RPO), a lightweight and effective alignment method to adaptively leverage multi-source knowledge based on retrieval relevance. An implicit representation of retrieval relevance is derived and incorporated into the reward model to integrate retrieval evaluation and response generation into a single model, solving the problem that previous methods necessitate the additional procedure to assess the retrieval quality. Notably, RPO is the only RAG-dedicated alignment approach that quantifies the awareness of retrieval relevance in training, overcoming mathematical obstacles. Experiments on four datasets demonstrate that RPO outperforms RAG by 4-10% in accuracy without any extra component, exhibiting its robust generalization.
arxiv情報
著者 | Shi-Qi Yan,Zhen-Hua Ling |
発行日 | 2025-01-23 14:58:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google