要約
大規模言語モデル (LLM) をプロンプトしてパッセージをランク付けすると、最新の情報検索 (IR) システムで有望なパフォーマンスを達成できます。
ランキング リストを並べ替える一般的なアプローチは、LLM にペアごとまたはセットごとの比較を促すことであり、多くの場合、並べ替えアルゴリズムに依存します。
ただし、並べ替えベースの方法では、パッセージを正しく並べ替えるために一貫した比較が必要であり、LLM がこれに違反することが多いことが示されています。
我々は、LLM ベースのペアごとの比較における 2 種類の本質的な矛盾を特定しました。1 つはパッセージの順序を切り替えるときに矛盾する結果をもたらす順序の不一致、もう 1 つはすべての優先ペア間で非推移的なトライアドをもたらす推移的な不一致です。
これらの不一致に関する私たちの研究は、相対的な好みに基づくランキング体系の理解と安定性の向上に関連しています。
この論文では、これらの不一致を軽減し、堅牢なランキング リストを作成する LLM ベースのランキング フレームワークである LLM-RankFusion を提案します。
LLM-RankFusion は、インコンテキスト学習 (ICL) を使用して順序の不一致を軽減し、順序に依存しない比較とキャリブレーションを実証し、2 つのパッセージ間の根底にある優先確率を推定します。
次に、複数のランカーからのランキング結果を集約することで、推移的な不一致に対処します。
私たちの実験では、LLM-RankFusion が一貫性のない比較結果を大幅に削減し、最終的なランキング リストをより堅牢にすることでランキングの品質を向上させることができることを経験的に示しています。
私たちのコードは \href{https://github.com/XHMY/LLM-RankFusion}{https://github.com/XHMY/LLM-RankFusion} で入手できます。
要約(オリジナル)
Ranking passages by prompting a large language model (LLM) can achieve promising performance in modern information retrieval (IR) systems. A common approach to sort the ranking list is by prompting LLMs for a pairwise or setwise comparison which often relies on sorting algorithms. However, sorting-based methods require consistent comparisons to correctly sort the passages, which we show that LLMs often violate. We identify two kinds of intrinsic inconsistency in LLM-based pairwise comparisons: order inconsistency which leads to conflicting results when switching the passage order, and transitive inconsistency which leads to non-transitive triads among all preference pairs. Our study of these inconsistencies is relevant for understanding and improving the stability of any ranking scheme based on relative preferences. In this paper, we propose LLM-RankFusion, an LLM-based ranking framework that mitigates these inconsistencies and produces a robust ranking list. LLM-RankFusion mitigates order inconsistency using in-context learning (ICL) to demonstrate order-agnostic comparisons and calibration to estimate the underlying preference probability between two passages. We then address transitive inconsistency by aggregating the ranking results from multiple rankers. In our experiments, we empirically show that LLM-RankFusion can significantly reduce inconsistent comparison results, improving the ranking quality by making the final ranking list more robust. Our code is available at \href{https://github.com/XHMY/LLM-RankFusion}{https://github.com/XHMY/LLM-RankFusion}
arxiv情報
著者 | Yifan Zeng,Ojas Tendolkar,Raymond Baartmans,Qingyun Wu,Lizhong Chen,Huazheng Wang |
発行日 | 2024-11-26 08:37:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google