KnowPO: Knowledge-aware Preference Optimization for Controllable Knowledge Selection in Retrieval-Augmented Language Models

要約

外部知識を統合することにより、検索拡張生成 (RAG) は、知識集約型タスクを処理するときに大規模言語モデル (LLM) が遭遇する幻覚問題を軽減するための効果的な戦略になりました。
ただし、外部の非パラメトリックな裏付け証拠を内部のパラメトリック知識と統合するプロセスでは、避けられない知識の衝突が発生し、モデルの応答に混乱が生じる可能性があります。
さまざまな状況における LLM の知識選択を強化するために、いくつかの研究では、命令チューニングを通じて LLM の行動パターンを洗練することに焦点を当てています。
それにもかかわらず、明示的な否定的なシグナルや比較目的が存在しないため、この方法で微調整されたモデルは依然として、文脈上の無知や文脈上の過剰包含などの望ましくない動作を示す可能性があります。
この目的を達成するために、実際の検索シナリオにおける文脈上の関連性に基づいて適応的な知識選択を達成することを目的とした、KnowPO と呼ばれる知識認識優先最適化戦略を提案します。
具体的には、知識競合データセットを構築するための一般的なパラダイムを提案しました。このデータセットは、さまざまな種類のエラーを包括的にカバーし、好みの最適化手法を通じてこれらのネガティブなシグナルを回避する方法を学習します。
同時に、好みの不均衡に対処するための書き換え戦略とデータ比率の最適化戦略を提案しました。
実験結果は、KnowPO が知識の競合を処理する以前の方法よりも 37% 以上優れていると同時に、さまざまな分布外データセットにわたって堅牢な一般化を示していることを示しています。

要約(オリジナル)

By integrating external knowledge, Retrieval-Augmented Generation (RAG) has become an effective strategy for mitigating the hallucination problems that large language models (LLMs) encounter when dealing with knowledge-intensive tasks. However, in the process of integrating external non-parametric supporting evidence with internal parametric knowledge, inevitable knowledge conflicts may arise, leading to confusion in the model’s responses. To enhance the knowledge selection of LLMs in various contexts, some research has focused on refining their behavior patterns through instruction-tuning. Nonetheless, due to the absence of explicit negative signals and comparative objectives, models fine-tuned in this manner may still exhibit undesirable behaviors such as contextual ignorance and contextual overinclusion. To this end, we propose a Knowledge-aware Preference Optimization strategy, dubbed KnowPO, aimed at achieving adaptive knowledge selection based on contextual relevance in real retrieval scenarios. Concretely, we proposed a general paradigm for constructing knowledge conflict datasets, which comprehensively cover various error types and learn how to avoid these negative signals through preference optimization methods. Simultaneously, we proposed a rewriting strategy and data ratio optimization strategy to address preference imbalances. Experimental results show that KnowPO outperforms previous methods for handling knowledge conflicts by over 37\%, while also exhibiting robust generalization across various out-of-distribution datasets.

arxiv情報

著者 Ruizhe Zhang,Yongxin Xu,Yuzhen Xiao,Runchuan Zhu,Xinke Jiang,Xu Chu,Junfeng Zhao,Yasha Wang
発行日 2024-08-19 10:38:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク