KaPO: Knowledge-aware Preference Optimization for Controllable Knowledge Selection in Retrieval-Augmented Language Models

要約

外部知識を統合することにより、検索拡張生成 (RAG) は、知識集約型タスクを処理するときに大規模言語モデル (LLM) が遭遇する幻覚問題を軽減するための効果的な戦略になりました。
ただし、外部の非パラメトリックな裏付け証拠を内部のパラメトリック知識と統合するプロセスでは、避けられない知識の衝突が発生し、モデルの応答に混乱が生じる可能性があります。
さまざまな状況における LLM の知識選択を強化するために、いくつかの研究では、命令チューニングを通じて LLM の行動パターンを洗練することに焦点を当てています。
それにもかかわらず、明示的な負のシグナルと比較目的が存在しないため、この方法で微調整されたモデルは、複雑で現実的な検索シナリオでは依然として望ましくない動作を示す可能性があります。
この目的を達成するために、実際の検索シナリオで制御可能な知識の選択を実現することを目的とした、KaPO と呼ばれる知識を意識した好みの最適化を提案します。
具体的には、さまざまなコンテキストの組み合わせにわたってエラーの種類を調査およびシミュレートし、プリファレンスの最適化手法を通じてこれらのネガティブなシグナルを回避する方法を学びます。
同時に、応答の長さとさまざまな行動パターンを表す嗜好データの割合の間のバランスを調整することで、バランスの取れた方法で LLM の遵守能力とノイズ耐性を強化します。
実験結果は、KaPO が知識の競合を処理する以前の方法よりも 37% 以上優れていると同時に、さまざまな分布外データセットにわたって堅牢な一般化を示していることを示しています。

要約(オリジナル)

By integrating external knowledge, Retrieval-Augmented Generation (RAG) has become an effective strategy for mitigating the hallucination problems that large language models (LLMs) encounter when dealing with knowledge-intensive tasks. However, in the process of integrating external non-parametric supporting evidence with internal parametric knowledge, inevitable knowledge conflicts may arise, leading to confusion in the model’s responses. To enhance the knowledge selection of LLMs in various contexts, some research has focused on refining their behavior patterns through instruction-tuning. Nonetheless, due to the absence of explicit negative signals and comparative objectives, models fine-tuned in this manner may still exhibit undesirable behaviors in the intricate and realistic retrieval scenarios. To this end, we propose a Knowledge-aware Preference Optimization, dubbed KaPO, aimed at achieving controllable knowledge selection in real retrieval scenarios. Concretely, we explore and simulate error types across diverse context combinations and learn how to avoid these negative signals through preference optimization methods. Simultaneously, by adjusting the balance between response length and the proportion of preference data representing different behavior patterns, we enhance the adherence capabilities and noise robustness of LLMs in a balanced manner. Experimental results show that KaPO outperforms previous methods for handling knowledge conflicts by over 37%, while also exhibiting robust generalization across various out-of-distribution datasets.

arxiv情報

著者 Ruizhe Zhang,Yongxin Xu,Yuzhen Xiao,Runchuan Zhu,Xinke Jiang,Xu Chu,Junfeng Zhao,Yasha Wang
発行日 2024-08-06 16:55:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク