Best Practices for Distilling Large Language Models into BERT for Web Search Ranking

要約

最近の研究では、ゼロショット関連性ランカーとしての大規模言語モデル (LLM) の大きな可能性が強調されています。
これらの方法は主に即時学習を利用して、潜在的なドキュメントのランク付けされたリストを生成することによってクエリとドキュメントの間の関連性を評価します。
LLM の有望性にもかかわらず、LLM に関連する多額のコストは、商用検索システムに LLM を直接実装する場合に重大な課題を引き起こします。
この障壁を克服し、LLM のテキスト ランキング機能を最大限に活用するために、ランキング損失を使用して、リソース集約度の低いモデルの展開を可能にし、LLM のランキングに関する専門知識を BERT に似たよりコンパクトなモデルに移す手法を検討します。
具体的には、クエリを入力として、クリックされたタイトルと概要を出力として取得し、継続的な事前トレーニングを通じて LLM のトレーニングを強化します。
次に、ランク損失を使用して LLM の教師あり微調整を進め、文全体の代表として最終トークンを割り当てます。
自己回帰言語モデルの固有の特性を考慮すると、最後のトークン のみが先行するすべてのトークンをカプセル化できます。
さらに、ランキングの知識を LLM から BERT のような小規模なモデルに転送するために、ハイブリッド ポイント単位損失とマージン MSE 損失を導入します。
この方法は、リソースに厳しい制約がある環境に有効なソリューションを作成します。
オフラインとオンラインの両方の評価で私たちのアプローチの有効性が確認され、2024 年 2 月の時点で私たちのモデルは商用 Web 検索エンジンに正常に統合されました。

要約(オリジナル)

Recent studies have highlighted the significant potential of Large Language Models (LLMs) as zero-shot relevance rankers. These methods predominantly utilize prompt learning to assess the relevance between queries and documents by generating a ranked list of potential documents. Despite their promise, the substantial costs associated with LLMs pose a significant challenge for their direct implementation in commercial search systems. To overcome this barrier and fully exploit the capabilities of LLMs for text ranking, we explore techniques to transfer the ranking expertise of LLMs to a more compact model similar to BERT, using a ranking loss to enable the deployment of less resource-intensive models. Specifically, we enhance the training of LLMs through Continued Pre-Training, taking the query as input and the clicked title and summary as output. We then proceed with supervised fine-tuning of the LLM using a rank loss, assigning the final token as a representative of the entire sentence. Given the inherent characteristics of autoregressive language models, only the final token can encapsulate all preceding tokens. Additionally, we introduce a hybrid point-wise and margin MSE loss to transfer the ranking knowledge from LLMs to smaller models like BERT. This method creates a viable solution for environments with strict resource constraints. Both offline and online evaluations have confirmed the efficacy of our approach, and our model has been successfully integrated into a commercial web search engine as of February 2024.

arxiv情報

著者 Dezhi Ye,Junwei Hu,Jiabin Fan,Bowen Tian,Jie Liu,Haijin Liang,Jin Ma
発行日 2024-11-07 08:54:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク