Learning to Rank in Generative Retrieval

要約

生成検索は、関連する文章の識別子文字列を検索対象として生成する、テキスト検索における有望な新しいパラダイムです。
このパラダイムは強力な生成モデルを活用しており、従来のランク付け学習方法とは異なる新しいパラダイムを表しています。
しかし、その急速な発展にもかかわらず、現在の生成検索手法にはまだ限界があります。
通常、予測された識別子をパッセージ ランク リストに変換するヒューリスティック関数に依存します。これにより、生成検索の学習目標と望ましいパッセージ ランキング ターゲットとの間にギャップが生じます。
さらに、テキスト生成に固有の露出バイアスの問題は、生成検索でも残ります。
これらの問題に対処するために、生成検索と古典的な学習からランク付けのパラダイムを組み合わせた、LTRGR と呼ばれる新しいフレームワークを提案します。
私たちのアプローチには、パッセージランク損失を使用して自己回帰モデルをトレーニングすることが含まれており、これにより、最適なパッセージランキングに向けて自己回帰モデルが直接最適化されます。
このフレームワークは、現在の生成検索システムを強化するための追加のトレーニング ステップのみを必要とし、推論段階に負担を追加することはありません。
私たちは 3 つの公開データセットで実験を実施しました。その結果、LTRGR が生成検索手法の中で最先端のパフォーマンスを実現し、その有効性と堅牢性が示されたことが実証されました。

要約(オリジナル)

Generative retrieval is a promising new paradigm in text retrieval that generates identifier strings of relevant passages as the retrieval target. This paradigm leverages powerful generation models and represents a new paradigm distinct from traditional learning-to-rank methods. However, despite its rapid development, current generative retrieval methods are still limited. They typically rely on a heuristic function to transform predicted identifiers into a passage rank list, which creates a gap between the learning objective of generative retrieval and the desired passage ranking target. Moreover, the inherent exposure bias problem of text generation also persists in generative retrieval. To address these issues, we propose a novel framework, called LTRGR, that combines generative retrieval with the classical learning-to-rank paradigm. Our approach involves training an autoregressive model using a passage rank loss, which directly optimizes the autoregressive model toward the optimal passage ranking. This framework only requires an additional training step to enhance current generative retrieval systems and does not add any burden to the inference stage. We conducted experiments on three public datasets, and our results demonstrate that LTRGR achieves state-of-the-art performance among generative retrieval methods, indicating its effectiveness and robustness.

arxiv情報

著者 Yongqi Li,Nan Yang,Liang Wang,Furu Wei,Wenjie Li
発行日 2023-06-27 05:48:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク