Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting

要約

大規模言語モデル (LLM) を使用して、クエリと候補ドキュメントをプロンプトに直接入力してドキュメントをランク付けすることは、興味深い実用的な問題です。
ただし、研究者らは、ベンチマーク データセットで微調整されたベースライン ランカーを上回るパフォーマンスを発揮するのは難しいことに気づきました。
私たちは、既存の手法で使用されているポイントごとおよびリストごとのランキング プロンプトを分析し、既製の LLM はこれらの困難なランキング公式を完全には理解していないと主張します。
このペーパーでは、ペアワイズ ランキング プロンプティング (PRP) と呼ばれる新しい技術を使用して、LLM の負担を大幅に軽減することを提案します。
私たちの結果は、中規模のオープンソース LLM を使用して、標準ベンチマークで最先端のランキング パフォーマンスを達成した文献初のものです。
TREC-DL 2019&2020 では、パラメータ 20B の Flan-UL2 モデルに基づく PRP は、50 倍 (推定) モデル サイズを持つブラックボックス商用 GPT-4 に基づく、文献にあるこれまでの最良のアプローチで良好なパフォーマンスを示しながら、他のアプローチよりも優れたパフォーマンスを発揮しました。
LLM ベースのソリューション (175B パラメーターを持つ InstructGPT など) は、すべてのランキング メトリックで 10% 以上増加します。
7 つの BEIR タスクで同じプロンプト テンプレートを使用することにより、PRP は教師付きベースラインを上回り、ブラックボックス商用 ChatGPT ソリューションを 4.2% 上回り、NDCG@10 の平均でポイントワイズ LLM ベースのソリューションを 10% 以上上回りました。
さらに、効率を向上させるために PRP のいくつかの変形を提案し、線形の複雑さでも競争力のある結果を達成できることを示します。

要約(オリジナル)

Ranking documents using Large Language Models (LLMs) by directly feeding the query and candidate documents into the prompt is an interesting and practical problem. However, researchers have found it difficult to outperform fine-tuned baseline rankers on benchmark datasets. We analyze pointwise and listwise ranking prompts used by existing methods and argue that off-the-shelf LLMs do not fully understand these challenging ranking formulations. In this paper, we propose to significantly reduce the burden on LLMs by using a new technique called Pairwise Ranking Prompting (PRP). Our results are the first in the literature to achieve state-of-the-art ranking performance on standard benchmarks using moderate-sized open-sourced LLMs. On TREC-DL 2019&2020, PRP based on the Flan-UL2 model with 20B parameters performs favorably with the previous best approach in the literature, which is based on the blackbox commercial GPT-4 that has 50x (estimated) model size, while outperforming other LLM-based solutions, such as InstructGPT which has 175B parameters, by over 10% for all ranking metrics. By using the same prompt template on seven BEIR tasks, PRP outperforms supervised baselines and outperforms the blackbox commercial ChatGPT solution by 4.2% and pointwise LLM-based solutions by more than 10% on average NDCG@10. Furthermore, we propose several variants of PRP to improve efficiency and show that it is possible to achieve competitive results even with linear complexity.

arxiv情報

著者 Zhen Qin,Rolf Jagerman,Kai Hui,Honglei Zhuang,Junru Wu,Le Yan,Jiaming Shen,Tianqi Liu,Jialu Liu,Donald Metzler,Xuanhui Wang,Michael Bendersky
発行日 2024-03-28 13:59:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG パーマリンク