要約
大規模な言語モデル(LLMS)は、多数のタスクにわたって顕著な機能を実証していますが、多くの場合、複雑なタスクを処理するために外部コンテキストに依存しています。
検索されたフレームワークは従来、単一のパスでトップランクのドキュメントを選択することに焦点を当てていますが、多くの現実世界のシナリオは、複数のソースを調整された方法で組み合わせる必要がある構成検索を要求します。
この作業では、このプロセスをマルコフ決定プロセス(MDP)としてモデル化するTRI-Encoderシーケンシャルレトリバーを提案し、一連の要素を条件付き確率のシーケンスに取得する可能性を分解し、各検索ステップを以前に選択した例で条件付けできるようにします。
レトリバーを2つの段階でトレーニングします。まず、初期ポリシートレーニングのために監視された連続データを効率的に構築します。
次に、生成されたプログラムの構造的対応に基づいた報酬を使用して、LLMの設定と一致するポリシーを改良します。
実験結果は、この方法がベースラインを一貫して大幅に上回ることを示しており、実験間依存関係を明示的にモデル化することの重要性を強調しています。
これらの調査結果は、複数の証拠または例を必要とするタスクの構成検索の可能性を強調しています。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated remarkable capabilities across numerous tasks, yet they often rely on external context to handle complex tasks. While retrieval-augmented frameworks traditionally focus on selecting top-ranked documents in a single pass, many real-world scenarios demand compositional retrieval, where multiple sources must be combined in a coordinated manner. In this work, we propose a tri-encoder sequential retriever that models this process as a Markov Decision Process (MDP), decomposing the probability of retrieving a set of elements into a sequence of conditional probabilities and allowing each retrieval step to be conditioned on previously selected examples. We train the retriever in two stages: first, we efficiently construct supervised sequential data for initial policy training; we then refine the policy to align with the LLM’s preferences using a reward grounded in the structural correspondence of generated programs. Experimental results show that our method consistently and significantly outperforms baselines, underscoring the importance of explicitly modeling inter-example dependencies. These findings highlight the potential of compositional retrieval for tasks requiring multiple pieces of evidence or examples.
arxiv情報
著者 | Quanyu Long,Jianda Chen,Zhengyuan Liu,Nancy F. Chen,Wenya Wang,Sinno Jialin Pan |
発行日 | 2025-04-15 17:35:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google