要約
タイトル:Quick Dense Retrievers Consume KALE: Post Training Kullback Leibler Alignment of Embeddings for Asymmetrical dual encoders
要約:
– 論文では、言語モデルに基づく密な情報取得システムの推論レイテンシを改善する問題を扱っている。
– コンテキストとクエリエンコーダーのサイズの非対称性と構造の圧縮を導入することで、推論の効率向上を実現する。
– 論文は、MSMARCO、Natural Questions、TriviaQA、SQUAD、SCIFACTのデータセットを用いて、事前および事後圧縮の影響を調査し、二重エンコーダーでの非対称性が推論効率の向上につながることを示している。
– その後、KALEと呼ばれる、トレーニング後のクエリエンコーダーの剪定と整列により推論効率を高める効果的で正確な方法を開発した。
– KALEは、伝統的なKnowledge Distillationを拡張し、完全な再トレーニングやインデックス生成なしにクエリエンコーダーの剪定を実現できる。
– KALEと非対称トレーニングを使用することで、DistilBERTを超える性能を持つモデルを生成できる。このモデルは、推論が3倍速くなっている。
要約(オリジナル)
In this paper, we consider the problem of improving the inference latency of language model-based dense retrieval systems by introducing structural compression and model size asymmetry between the context and query encoders. First, we investigate the impact of pre and post-training compression on the MSMARCO, Natural Questions, TriviaQA, SQUAD, and SCIFACT, finding that asymmetry in the dual encoders in dense retrieval can lead to improved inference efficiency. Knowing this, we introduce Kullback Leibler Alignment of Embeddings (KALE), an efficient and accurate method for increasing the inference efficiency of dense retrieval methods by pruning and aligning the query encoder after training. Specifically, KALE extends traditional Knowledge Distillation after bi-encoder training, allowing for effective query encoder compression without full retraining or index generation. Using KALE and asymmetric training, we can generate models which exceed the performance of DistilBERT despite having 3x faster inference.
arxiv情報
| 著者 | Daniel Campos,Alessandro Magnani,ChengXiang Zhai |
| 発行日 | 2023-03-31 15:44:13+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI