An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking

要約

最近の進歩により、大規模言語モデル (LLM) がリストごとのリランカーとして優れていることが実証されていますが、その高い計算要求が依然として広範な採用の障壁となっています。
さらに、従来の言語モデリング (LM) の目標は、再ランク付けタスクには理想的には適していません。
FIRST は、ランク付けの学習目標を統合し、最初に生成されたトークンのみのロジットを活用することで、これらの課題に対処する新しいアプローチです。これにより、従来の LLM リランカーと比較して推論レイテンシーが大幅に短縮されます。
この研究では、FIRST の評価を TREC 深層学習データセット (DL19 ~ 22) に拡張し、さまざまなドメインにわたる堅牢性を検証します。
私たちは、さまざまなファーストステージレトリーバーが FIRST リランカーに及ぼす影響を調査し、従来の LLM リランカーと一致する収益の逓減とパターンを観察しました。
最初の目標をより広範囲のバックボーン モデルに適用することで、元の実装を超える効果を達成します。
私たちの実験では、単一トークン ロジットによる高速再ランキングによってドメイン外の再ランキングの品質が損なわれないことが確認されました。
元の調査での計算量の節約をより正確に定量化するために、レイテンシを測定して比較し、さまざまなモデルとベンチマーク全体で 21% ~ 42% の向上が見られました。
さらに、LM トレーニングはゼロショットのシングル トークンの再ランキングを暗黙的に改善しますが、私たちの実験では、LM の事前トレーニングが FIRST 目的でのその後の微調整を妨げる可能性があるかどうかという疑問も生じます。
これらの発見は、将来のアプリケーションでより効率的かつ効果的なリストごとの再ランキングへの道を開きます。

要約(オリジナル)

Recent advances have demonstrated that large language models (LLMs) excel as listwise rerankers, but their high computational demands remain a barrier to widespread adoption. Further, the traditional language modeling (LM) objective is not ideally suited for reranking tasks. FIRST is a novel approach that addresses these challenges by integrating a learning-to-rank objective and leveraging the logits of only the first generated token, thereby significantly reducing inference latency compared to traditional LLM rerankers. In this study, we extend the evaluation of FIRST to the TREC Deep Learning datasets (DL19-22), validating its robustness across diverse domains. We investigate the influence of different first-stage retrievers on FIRST rerankers, observing diminishing returns and patterns consistent with traditional LLM rerankers. Through applying the FIRST objective to a broader range of backbone models, we achieve effectiveness surpassing the original implementation. Our experiments confirm that fast reranking with single-token logits does not compromise out-of-domain reranking quality. To better quantify the computational savings in the original study, we measure and compare latency to find a 21%-42% gain across various models and benchmarks. Moreover, while LM training implicitly improves zero-shot single-token reranking, our experiments also raise questions about whether LM pre-training may hinder subsequent fine-tuning with the FIRST objective. These findings pave the way for more efficient and effective listwise reranking in future applications.

arxiv情報

著者 Zijian Chen,Ronak Pradeep,Jimmy Lin
発行日 2024-11-12 15:36:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク