ConvSearch-R1: Enhancing Query Reformulation for Conversational Search with Reasoning via Reinforcement Learning

要約

会話型検索システムには、曖昧さ、省略、コアレファレンスを含むことが多いコンテキスト依存のクエリの効果的な処理が必要です。
会話クエリ再編成(CQR)は、これらのクエリを既製のレトリバーに適した自己完結型フォームに変換することにより、この課題に対処します。
ただし、既存のCQRアプローチは、2つの重要な制約に悩まされています。人間の注釈または大規模な言語モデルからの費用のかかる外部監督への依存度と、書き換えモデルとダウンストリームレトリバーの間のアラインメントが不十分です。
Convsearch-R1は、検索信号を介して補強学習を直接最適化するための補強学習を活用することにより、外部書き換え監督への依存を完全に排除する最初の自己主導のフレームワークです。
私たちの新しい2段階のアプローチは、自己主導のポリシーのウォームアップを組み合わせて、検索ガイド付きの自己抵抗を通じてコールドスタートの問題に対処し、それに続いて、従来の回収メトリックのスパース性の問題に対処する特別に設計されたランク介入報酬形状メカニズムを備えた検索誘導補強学習を続けます。
TopiocqaおよびQRECCデータセットの広範な実験は、Convsearch-R1が以前の最先端の方法を大幅に上回り、外部の監督なしでより小さな3Bパラメーターモデルを使用しながら、困難なTopiocqaデータセットを10%以上改善することを示しています。

要約(オリジナル)

Conversational search systems require effective handling of context-dependent queries that often contain ambiguity, omission, and coreference. Conversational Query Reformulation (CQR) addresses this challenge by transforming these queries into self-contained forms suitable for off-the-shelf retrievers. However, existing CQR approaches suffer from two critical constraints: high dependency on costly external supervision from human annotations or large language models, and insufficient alignment between the rewriting model and downstream retrievers. We present ConvSearch-R1, the first self-driven framework that completely eliminates dependency on external rewrite supervision by leveraging reinforcement learning to optimize reformulation directly through retrieval signals. Our novel two-stage approach combines Self-Driven Policy Warm-Up to address the cold-start problem through retrieval-guided self-distillation, followed by Retrieval-Guided Reinforcement Learning with a specially designed rank-incentive reward shaping mechanism that addresses the sparsity issue in conventional retrieval metrics. Extensive experiments on TopiOCQA and QReCC datasets demonstrate that ConvSearch-R1 significantly outperforms previous state-of-the-art methods, achieving over 10% improvement on the challenging TopiOCQA dataset while using smaller 3B parameter models without any external supervision.

arxiv情報

著者 Changtai Zhu,Siyin Wang,Ruijun Feng,Kai Song,Xipeng Qiu
発行日 2025-05-21 17:27:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク