Policy-Gradient Training of Language Models for Ranking

要約

テキスト検索は、チャットベースの Web 検索から質問応答システムに至るまで、意思決定のための事実知識を言語処理パイプラインに組み込む上で重要な役割を果たします。
現在の最先端のテキスト検索モデルは、事前にトレーニングされた大規模言語モデル (LLM) を活用して競争力のあるパフォーマンスを達成していますが、典型的な対照的な損失を介して LLM ベースの検索者をトレーニングするには、ハード ネガの選択や学習としての追加の監視の使用など、複雑なヒューリスティックが必要です。
信号。
このヒューリスティックへの依存は、対比損失自体がヒューリスティックであり、処理パイプラインの最後での意思決定品質の下流メトリクスを直接最適化しないという事実に由来しています。
この問題に対処するために、Plackett-Luce ランキング ポリシーとして LLM をインスタンス化することでランク付けを学習する新しいトレーニング アルゴリズムである Neural PG-RANK を導入します。
Neural PG-RANK は、複雑なヒューリスティックにほとんど依存せず、ポリシー勾配を介した大規模な意思決定システムの一部として検索モデルのエンドツーエンド トレーニングのための原理に基づいた方法を提供し、トレーニング目標と下流の意思決定の品質を効果的に統合します。
私たちはさまざまなテキスト検索ベンチマークについて広範な実験を行っています。
この結果は、トレーニングの目的が評価設定と一致している場合、Neural PG-RANK はドメイン内のパフォーマンスを顕著に向上させ、下流の質問応答タスクで使用されるいくつかの重要なデータセットに対するドメイン外の一般化を大幅に実現することを示しています。

要約(オリジナル)

Text retrieval plays a crucial role in incorporating factual knowledge for decision making into language processing pipelines, ranging from chat-based web search to question answering systems. Current state-of-the-art text retrieval models leverage pre-trained large language models (LLMs) to achieve competitive performance, but training LLM-based retrievers via typical contrastive losses requires intricate heuristics, including selecting hard negatives and using additional supervision as learning signals. This reliance on heuristics stems from the fact that the contrastive loss itself is heuristic and does not directly optimize the downstream metrics of decision quality at the end of the processing pipeline. To address this issue, we introduce Neural PG-RANK, a novel training algorithm that learns to rank by instantiating a LLM as a Plackett-Luce ranking policy. Neural PG-RANK provides a principled method for end-to-end training of retrieval models as part of larger decision systems via policy gradient, with little reliance on complex heuristics, and it effectively unifies the training objective with downstream decision-making quality. We conduct extensive experiments on various text retrieval benchmarks. The results demonstrate that when the training objective aligns with the evaluation setup, Neural PG-RANK yields remarkable in-domain performance improvement, with substantial out-of-domain generalization to some critical datasets employed in downstream question answering tasks.

arxiv情報

著者 Ge Gao,Jonathan D. Chang,Claire Cardie,Kianté Brantley,Thorsten Joachim
発行日 2023-10-06 17:55:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク