Adam: Dense Retrieval Distillation with Adaptive Dark Examples

要約

デュアル エンコーダー リトリーバーのパフォーマンスを向上させるための効果的なアプローチの 1 つは、クロス エンコーダー ランカーからの知識の蒸留です。
既存の研究では、クエリが肯定的な文章と一連の否定的な文章とペアになる教師あり学習設定に従って、候補となる文章を構築します。
しかし、経験的な観察を通じて、高度な手法によるハードネガであっても、教師にとっては区別できないほど些細なものであり、教師がソフトラベルを通じて豊富な暗い知識を生徒に伝えることができないことがわかりました。
この問題を軽減するために、Adaptive Dark の例を使用して教師の中にあるダーク知識をより適切に転送できる知識蒸留フレームワークである ADAM を提案します。
候補パッセージとして 1 つのポジティブとハード ネガティブのみに依存する以前の研究とは異なり、離散空間での混合とマスキングを通じて、すべてがクエリと中程度の関連性を持つ暗い例を作成します。
さらに、さまざまなトレーニング インスタンスで保持される知識の質は、教師の信頼スコアによって測定されるように異なるため、高品質のインスタンスのサブセットに適応的に集中して、ダーク サンプル ベースの知識の蒸留を実行する、自己ペースの蒸留戦略を提案します。
生徒がより良く学ぶのを助けるために。
私たちは広く使用されている 2 つのベンチマークで実験を実施し、手法の有効性を検証します。

要約(オリジナル)

To improve the performance of the dual-encoder retriever, one effective approach is knowledge distillation from the cross-encoder ranker. Existing works construct the candidate passages following the supervised learning setting where a query is paired with a positive passage and a batch of negatives. However, through empirical observation, we find that even the hard negatives from advanced methods are still too trivial for the teacher to distinguish, preventing the teacher from transferring abundant dark knowledge to the student through its soft label. To alleviate this issue, we propose ADAM, a knowledge distillation framework that can better transfer the dark knowledge held in the teacher with Adaptive Dark exAMples. Different from previous works that only rely on one positive and hard negatives as candidate passages, we create dark examples that all have moderate relevance to the query through mixing-up and masking in discrete space. Furthermore, as the quality of knowledge held in different training instances varies as measured by the teacher’s confidence score, we propose a self-paced distillation strategy that adaptively concentrates on a subset of high-quality instances to conduct our dark-example-based knowledge distillation to help the student learn better. We conduct experiments on two widely-used benchmarks and verify the effectiveness of our method.

arxiv情報

著者 Chongyang Tao,Chang Liu,Tao Shen,Can Xu,Xiubo Geng,Binxing Jiao,Daxin Jiang
発行日 2024-06-06 15:20:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク