MaFeRw: Query Rewriting with Multi-Aspect Feedbacks for Retrieval-Augmented Large Language Models

要約

現実の RAG システムでは、現在のクエリには音声の省略記号や対話コンテキストからのあいまいな参照が含まれることが多く、ユーザーの情報ニーズをより適切に記述するためにクエリの書き換えが必要になります。
ただし、従来のコンテキストベースの書き換えでは、クエリの書き換えから応答の生成までのプロセスに時間がかかるため、下流の生成タスクの機能強化は最小限です。
一部の研究者は、リライターを支援するために生成フィードバックを備えた強化学習を利用しようとしていますが、これらのまばらな報酬はほとんどの場合ほとんど指針を提供せず、トレーニングと生成の結果が不安定になります。
ユーザーのニーズは、ゴールド ドキュメント、検索されたドキュメント、グラウンド トゥルースにも反映されていることがわかりました。
したがって、これらの多側面の緻密な報酬をクエリの書き換えにフィードバックすることで、より安定した満足のいく応答を実現できます。
この論文では、検索プロセスと生成された結果の両方からの多面的なフィードバックを統合することで RAG パフォーマンスを向上させる、新しいクエリ書き換え手法 MaFeRw を提案します。
具体的には、まず手動データを使用して、リライターの初期化のために T5 モデルをトレーニングします。
次に、強化学習フィードバックとして 3 つのメトリクスを設計します。書き換えられたクエリとゴールド ドキュメントの類似性、ランキング メトリクス、および生成とグランド トゥルースの間の ROUGE です。
RLAIF からインスピレーションを得て、より効率的なトレーニングを実現するために、上記の指標に対して 3 種類の報酬モデルをトレーニングします。
最後に、これらの報酬モデルのスコアをフィードバックとして組み合わせ、PPO アルゴリズムを使用して最適なクエリ書き換え戦略を探索します。
2 つの会話型 RAG データセットに関する実験結果は、MaFeRw がベースラインと比較して優れた生成メトリクスとより安定したトレーニングを達成することを示しています。

要約(オリジナル)

In a real-world RAG system, the current query often involves spoken ellipses and ambiguous references from dialogue contexts, necessitating query rewriting to better describe user’s information needs. However, traditional context-based rewriting has minimal enhancement on downstream generation tasks due to the lengthy process from query rewriting to response generation. Some researchers try to utilize reinforcement learning with generation feedback to assist the rewriter, but these sparse rewards provide little guidance in most cases, leading to unstable training and generation results. We find that user’s needs are also reflected in the gold document, retrieved documents and ground truth. Therefore, by feeding back these multi-aspect dense rewards to query rewriting, more stable and satisfactory responses can be achieved. In this paper, we propose a novel query rewriting method MaFeRw, which improves RAG performance by integrating multi-aspect feedback from both the retrieval process and generated results. Specifically, we first use manual data to train a T5 model for the rewriter initialization. Next, we design three metrics as reinforcement learning feedback: the similarity between the rewritten query and the gold document, the ranking metrics, and ROUGE between the generation and the ground truth. Inspired by RLAIF, we train three kinds of reward models for the above metrics to achieve more efficient training. Finally, we combine the scores of these reward models as feedback, and use PPO algorithm to explore the optimal query rewriting strategy. Experimental results on two conversational RAG datasets demonstrate that MaFeRw achieves superior generation metrics and more stable training compared to baselines.

arxiv情報

著者 Yujing Wang,Hainan Zhang,Liang Pang,Liang Pang,Hongwei Zheng,Zhiming Zheng
発行日 2024-08-30 07:57:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク