LED: Lexicon-Enlightened Dense Retriever for Large-Scale Retrieval

要約

意味空間の密な表現に基づく検索モデルは、第一段階の検索に不可欠な枝となっている。これらの検索モデルは、大域的な配列レベルの埋め込みを目指す表現学習の急速な進歩の恩恵を受けている。しかし、これらの検索器は、第一段階検索において重要な役割を果たす、テキスト中の局所的なフレーズや固有表現を見落としてしまう可能性がある。この弱点を軽減するために、我々は、高密度の検索エンジンを、性能の良い辞書認識表現モデルと連携させることを提案する。1)密なエンコーダに挑戦するための語彙増強対照目的、2)密なモデルの挙動を他方に傾けるためのペアワイズ順位一貫正則化。その結果、レキシコンに対応したレトリーバーが教師であれば、我々の提案する密なモデルは一貫した大きな改善をもたらすことができ、教師よりも優れていることさえわかった。さらに、密な検索エンジンの改良は、標準的なランカー蒸留と相補的であり、最先端の性能をさらに高めることができることがわかった。

要約(オリジナル)

Retrieval models based on dense representations in semantic space have become an indispensable branch for first-stage retrieval. These retrievers benefit from surging advances in representation learning towards compressive global sequence-level embeddings. However, they are prone to overlook local salient phrases and entity mentions in texts, which usually play pivot roles in first-stage retrieval. To mitigate this weakness, we propose to make a dense retriever align a well-performing lexicon-aware representation model. The alignment is achieved by weakened knowledge distillations to enlighten the retriever via two aspects — 1) a lexicon-augmented contrastive objective to challenge the dense encoder and 2) a pair-wise rank-consistent regularization to make dense model’s behavior incline to the other. We evaluate our model on three public benchmarks, which shows that with a comparable lexicon-aware retriever as the teacher, our proposed dense one can bring consistent and significant improvements, and even outdo its teacher. In addition, we found our improvement on the dense retriever is complementary to the standard ranker distillation, which can further lift state-of-the-art performance.

arxiv情報

著者 Kai Zhang,Chongyang Tao,Tao Shen,Can Xu,Xiubo Geng,Binxing Jiao,Daxin Jiang
発行日 2023-03-03 03:42:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク