要約
最近、大規模言語モデル (LLM) をゼロショットパッセージランカーとして適用することへの関心が高まっています。
しかし、この論文の焦点であるパッセージのランキングタスクに適切なコンテキスト内のデモンストレーションを選択する方法を検討した研究はほとんどありません。
これまでの研究では、主に LLM のフィードバックを使用して、デモンストレーション選択のためにレトリーバーを訓練しました。
これらの研究では、LLM を適用して各デモンストレーションを独立してスコアリングします。これにより、デモンストレーション間の依存関係 (特にランキング タスクで重要) が無視され、上位 $k$ で取得されたデモンストレーションのパフォーマンスが低下します。
この問題を軽減するために、取得したデモンストレーションを再ランク付けするデモンストレーション リランカーを導入し、上位 $k$ ランクのものを ICL により適したものにします。
ただし、このようなリランカーのトレーニング データを生成するのは非常に困難です。
一方で、デモンストレーション リトリーバーとは異なり、リランカーのトレーニング サンプルにはデモンストレーションの依存関係を組み込む必要があります。
一方、取得したデモからゴールドランキングを取得することはNP困難問題であり、実装が困難です。
これらの課題を克服するために、最適なデモンストレーション リストを繰り返し近似し、LLM を利用してさまざまな長さのデモンストレーション リストをスコアリングする方法を提案します。
そうすることで、検索スペースが大幅に削減され、デモンストレーションの依存関係が考慮されます。
これらのスコア付けされたデモンストレーション リストに基づいて、最後のデモンストレーションのみが異なるリストのペアを比較するリスト ペアワイズ トレーニング アプローチをさらに設計し、前のシーケンスを考慮して次のデモンストレーションを選択する方法をリランカーに教えます。
本稿では、ランキングタスクのためのデモンストレーション選択フレームワークDemoRankを提案し、その強力な能力を証明するために広範な実験を実施します。
要約(オリジナル)
Recently, there has been increasing interest in applying large language models (LLMs) as zero-shot passage rankers. However, few studies have explored how to select appropriate in-context demonstrations for the passage ranking task, which is the focus of this paper. Previous studies mainly use LLM’s feedback to train a retriever for demonstration selection. These studies apply the LLM to score each demonstration independently, which ignores the dependencies between demonstrations (especially important in ranking task), leading to inferior performance of top-$k$ retrieved demonstrations. To mitigate this issue, we introduce a demonstration reranker to rerank the retrieved demonstrations so that top-$k$ ranked ones are more suitable for ICL. However, generating training data for such reranker is quite challenging. On the one hand, different from demonstration retriever, the training samples of reranker need to incorporate demonstration dependencies. On the other hand, obtaining the gold ranking from the retrieved demonstrations is an NP-hard problem, which is hard to implement. To overcome these challenges, we propose a method to approximate the optimal demonstration list iteratively and utilize LLM to score demonstration lists of varying lengths. By doing so, the search space is greatly reduced and demonstration dependencies are considered. Based on these scored demonstration lists, we further design a list-pairwise training approach which compares a pair of lists that only differ in the last demonstration, to teach the reranker how to select the next demonstration given a previous sequence. In this paper, we propose a demonstration selection framework DemoRank for ranking task and conduct extensive experiments to prove its strong ability.
arxiv情報
著者 | Wenhan Liu,Yutao Zhu,Zhicheng Dou |
発行日 | 2024-09-25 09:36:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google