Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting

要約

大規模言語モデル (LLM) を使用して、クエリと候補ドキュメントをプロンプトに直接入力してドキュメントをランク付けすることは、興味深い実用的な問題です。
ただし、研究者らはベンチマーク データセットで微調整されたベースライン ランカーを上回るパフォーマンスを達成するのは難しいと考えているため、これまでのところ成功は限られています。
私たちは、既存の手法で使用されているポイントごとおよびリストごとのランキング プロンプトを分析し、おそらく LLM のトレーニング方法の性質が原因で、既製の LLM はこれらのランキング公式を完全には理解していないと主張します。
このペーパーでは、ペアワイズ ランキング プロンプティング (PRP) と呼ばれる新しい技術を使用して、LLM の負担を大幅に軽減することを提案します。
私たちの結果は、中規模のオープンソース LLM を使用して、標準ベンチマークで最先端のランキング パフォーマンスを達成した文献初のものです。
TREC-DL2020 では、パラメータ 20B の Flan-UL2 モデルに基づく PRP は、NDCG で 50 倍 (推定) のモデル サイズを持つブラックボックス商用 GPT-4 に基づく、文献に記載されている以前の最良のアプローチを 5% 以上上回っています。
@1.
TREC-DL2019 では、PRP は NDCG@5 および NDCG@10 メトリクスに関して GPT-4 ソリューションよりも劣っているだけですが、175B パラメーターを持つ InstructGPT などの他の既存のソリューションよりも、ほぼすべてのランキング メトリクスで 10% 以上優れています。
さらに、効率を向上させるために PRP のいくつかの変形を提案し、線形の複雑さでも競争力のある結果を達成できることを示します。
また、LLM API の生成とスコアリングの両方をサポートすること、入力順序に影響されないことなど、PRP の他の利点についても説明します。

要約(オリジナル)

Ranking documents using Large Language Models (LLMs) by directly feeding the query and candidate documents into the prompt is an interesting and practical problem. However, there has been limited success so far, as researchers have found it difficult to outperform fine-tuned baseline rankers on benchmark datasets. We analyze pointwise and listwise ranking prompts used by existing methods and argue that off-the-shelf LLMs do not fully understand these ranking formulations, possibly due to the nature of how LLMs are trained. In this paper, we propose to significantly reduce the burden on LLMs by using a new technique called Pairwise Ranking Prompting (PRP). Our results are the first in the literature to achieve state-of-the-art ranking performance on standard benchmarks using moderate-sized open-sourced LLMs. On TREC-DL2020, PRP based on the Flan-UL2 model with 20B parameters outperforms the previous best approach in the literature, which is based on the blackbox commercial GPT-4 that has 50x (estimated) model size, by over 5% at NDCG@1. On TREC-DL2019, PRP is only inferior to the GPT-4 solution on the NDCG@5 and NDCG@10 metrics, while outperforming other existing solutions, such as InstructGPT which has 175B parameters, by over 10% for nearly all ranking metrics. Furthermore, we propose several variants of PRP to improve efficiency and show that it is possible to achieve competitive results even with linear complexity. We also discuss other benefits of PRP, such as supporting both generation and scoring LLM APIs, as well as being insensitive to input ordering.

arxiv情報

著者 Zhen Qin,Rolf Jagerman,Kai Hui,Honglei Zhuang,Junru Wu,Jiaming Shen,Tianqi Liu,Jialu Liu,Donald Metzler,Xuanhui Wang,Michael Bendersky
発行日 2023-06-30 11:32:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG パーマリンク