Learning to Rank in Generative Retrieval

要約

生成検索は、検索対象として関連する文章の識別子文字列を生成することを目的とした、テキスト検索における有望な新しいパラダイムとして際立っています。
この生成パラダイムは、従来のスパースまたはデンス検索方法とは異なる、強力な生成言語モデルを活用しています。
しかし、生成検索を行うには、生成することを学習するだけでは不十分です。
生成検索では、中間目標として関連するパッセージの識別子を生成することを学習し、予測された識別子を最終的なパッセージ ランク リストに変換します。
自己回帰モデルの学習目標と望ましい通過ランキング目標との間に乖離があると、学習ギャップが生じます。
このギャップを埋めるために、私たちは LTRGR と呼ばれる、生成検索のためのランク付け学習フレームワークを提案します。
LTRGR を使用すると、生成検索がパッセージのランク付けを直接学習し、ランク損失を介して最終的なパッセージのランキング目標に向けて自己回帰モデルを最適化できます。
このフレームワークは、現在の生成検索システムを強化するために追加のランク付け学習フェーズのみを必要とし、推論段階に負担を追加することはありません。
3 つの公開ベンチマークで実験を行った結果、LTRGR が生成検索手法の中で最先端のパフォーマンスを達成することが実証されました。
コードとチェックポイントは https://github.com/liyongqi67/LTRGR でリリースされています。

要約(オリジナル)

Generative retrieval stands out as a promising new paradigm in text retrieval that aims to generate identifier strings of relevant passages as the retrieval target. This generative paradigm taps into powerful generative language models, distinct from traditional sparse or dense retrieval methods. However, only learning to generate is insufficient for generative retrieval. Generative retrieval learns to generate identifiers of relevant passages as an intermediate goal and then converts predicted identifiers into the final passage rank list. The disconnect between the learning objective of autoregressive models and the desired passage ranking target leads to a learning gap. To bridge this gap, we propose a learning-to-rank framework for generative retrieval, dubbed LTRGR. LTRGR enables generative retrieval to learn to rank passages directly, optimizing the autoregressive model toward the final passage ranking target via a rank loss. This framework only requires an additional learning-to-rank training phase to enhance current generative retrieval systems and does not add any burden to the inference stage. We conducted experiments on three public benchmarks, and the results demonstrate that LTRGR achieves state-of-the-art performance among generative retrieval methods. The code and checkpoints are released at https://github.com/liyongqi67/LTRGR.

arxiv情報

著者 Yongqi Li,Nan Yang,Liang Wang,Furu Wei,Wenjie Li
発行日 2023-12-16 13:26:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク