Quick Dense Retrievers Consume KALE: Post Training Kullback Leibler Alignment of Embeddings for Asymmetrical dual encoders

要約

【タイトル】
Quick Dense Retrievers Consume KALE: Post Training Kullback Leibler Alignment of Embeddings for Asymmetrical dual encoders

【要約】
・本論文では、文ベースでの密な検索システムの推論レイテンシーを改善する方法について検討する。
・コンテキストとクエリのエンコーダー間で構造的な圧縮とモデルサイズの非対称性を導入することにより、推論効率が向上することを考察する。
・MSMARCO、Natural Questions、TriviaQA、SQUAD、SCIFACTを対象にして事前および事後の圧縮がどのように影響するかを調査した結果、密な検索の二重エンコーダーにおいて非対称性が推論効率の向上につながることが分かった。
・この知見に基づき、エンコーダーを軽量化するための新しい方法であるKullback Leibler Alignment of Embeddings(KALE)を提案する。KALEは、モデル訓練後にクエリエンコーダーを削減し、調整する効率的で正確な方法である。これにより、従来のKnowledge Distillationを拡張し、完全な再トレーニングやインデックス生成なしでクエリエンコーダーを圧縮できる。
・KALEと非対称フレームワークを使用することで、DistilBERTの性能を3倍の推論速度で超えるモデルを生成できる。

要約(オリジナル)

In this paper, we consider the problem of improving the inference latency of language model-based dense retrieval systems by introducing structural compression and model size asymmetry between the context and query encoders. First, we investigate the impact of pre and post-training compression on the MSMARCO, Natural Questions, TriviaQA, SQUAD, and SCIFACT, finding that asymmetry in the dual encoders in dense retrieval can lead to improved inference efficiency. Knowing this, we introduce Kullback Leibler Alignment of Embeddings (KALE), an efficient and accurate method for increasing the inference efficiency of dense retrieval methods by pruning and aligning the query encoder after training. Specifically, KALE extends traditional Knowledge Distillation after bi-encoder training, allowing for effective query encoder compression without full retraining or index generation. Using KALE and asymmetric training, we can generate models which exceed the performance of DistilBERT despite having 3x faster inference.

arxiv情報

著者 Daniel Campos,Alessandro Magnani,ChengXiang Zhai
発行日 2023-04-17 18:00:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク