要約
大規模な言語モデル(LLMS)は、微調整されたテキストの再ランクを実行するための強力な基盤を提供します。
ただし、計算帯域幅の制約により、実際にはほとんど法外なものです。
この作業では、ユーザーの構成に基づいて各レイヤーでモデル層とシーケンス長の\ textBf {ランタイムカスタマイズ}を容易にするように設計された\ textbf {matroyshka re-ranker}と呼ばれる\ textbf {Flexible}アーキテクチャを提案します。
したがって、LLMベースの再ランカーは、さまざまな現実世界の状況で適用できるようにすることができます。
柔軟性の向上は、精密な損失を犠牲にしてもたらされる可能性があります。
この問題に対処するために、パフォーマンスを最適化するための一連のテクニックを紹介します。
まず、\ textBf {cascaded edistilation}を提案します。各サブアーキテクチャは、スーパーコンポーネントから正確な再ランクパフォーマンスを維持することを学びます。
第二に、私たちは\ textBf {因数分解メカニズム}を設計します。ここでは、垂直および水平の2つの共同低ランク適応モジュールが共同で使用され、層と配列圧縮の任意の組み合わせから生じる精密損失を補正します。
MSMARCOからのパッセージおよび文書検索データセットに基づいて包括的な実験と、Beirベンチマークからのすべてのパブリックデータセットを実行します。
実験では、Matryoshkaの再ルンカーは、既存の方法を大幅に上回り、さまざまな形態の圧縮シナリオとさまざまなアプリケーションシナリオで優れたパフォーマンスを効果的に維持します。
要約(オリジナル)
Large language models (LLMs) provide powerful foundations to perform fine-grained text re-ranking. However, they are often prohibitive in reality due to constraints on computation bandwidth. In this work, we propose a \textbf{flexible} architecture called \textbf{Matroyshka Re-Ranker}, which is designed to facilitate \textbf{runtime customization} of model layers and sequence lengths at each layer based on users’ configurations. Consequently, the LLM-based re-rankers can be made applicable across various real-world situations. The increased flexibility may come at the cost of precision loss. To address this problem, we introduce a suite of techniques to optimize the performance. First, we propose \textbf{cascaded self-distillation}, where each sub-architecture learns to preserve a precise re-ranking performance from its super components, whose predictions can be exploited as smooth and informative teacher signals. Second, we design a \textbf{factorized compensation mechanism}, where two collaborative Low-Rank Adaptation modules, vertical and horizontal, are jointly employed to compensate for the precision loss resulted from arbitrary combinations of layer and sequence compression. We perform comprehensive experiments based on the passage and document retrieval datasets from MSMARCO, along with all public datasets from BEIR benchmark. In our experiments, Matryoshka Re-Ranker substantially outperforms the existing methods, while effectively preserving its superior performance across various forms of compression and different application scenarios.
arxiv情報
著者 | Zheng Liu,Chaofan Li,Shitao Xiao,Chaozhuo Li,Defu Lian,Yingxia Shao |
発行日 | 2025-01-27 18:42:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google