要約
タイトル: 大規模言語モデルを用いたゼロショット型のリストワイズ文書再ランキング
要約:
– 監督学習に基づくバイエンコーダーやクロスエンコーダーのアーキテクチャに基づいたランキング手法は、多段階テキストランキングタスクにおいて成功を収めているが、大量の関連性判定をトレーニングデータとして必要とする。
– この論文では、LRLと呼ばれる大規模言語モデルを用いたリストワイズリランカーを提案し、タスク固有のトレーニングデータを使用せずに強力な再ランキング効果を実現した。
– 既存のポイントワイズランキング手法とは異なり、LRLはドキュメントを独立にスコアリングし、スコアに従ってランキングを行うのではなく、候補ドキュメントが与えられた場合に再配置されたリストを直接生成する。
– TRECの3つのWeb検索データセットにおける実験では、LRLは、最初のステージの検索結果の再ランキング時にゼロショットのポイントワイズ方法よりも優れた結果を収め、効率を向上させるためのポイントワイズ方法のトップランキング結果を改善する最終ステージの再ランカーとして機能することが示された。
– さらに、最近の多言語検索データセットであるMIRACLのサブセットに対して、アプローチを適用し、異なる言語間で汎化する潜在的な可能性を示した。
要約(オリジナル)
Supervised ranking methods based on bi-encoder or cross-encoder architectures have shown success in multi-stage text ranking tasks, but they require large amounts of relevance judgments as training data. In this work, we propose Listwise Reranker with a Large Language Model (LRL), which achieves strong reranking effectiveness without using any task-specific training data. Different from the existing pointwise ranking methods, where documents are scored independently and ranked according to the scores, LRL directly generates a reordered list of document identifiers given the candidate documents. Experiments on three TREC web search datasets demonstrate that LRL not only outperforms zero-shot pointwise methods when reranking first-stage retrieval results, but can also act as a final-stage reranker to improve the top-ranked results of a pointwise method for improved efficiency. Additionally, we apply our approach to subsets of MIRACL, a recent multilingual retrieval dataset, with results showing its potential to generalize across different languages.
arxiv情報
著者 | Xueguang Ma,Xinyu Zhang,Ronak Pradeep,Jimmy Lin |
発行日 | 2023-05-03 14:45:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI