LEAD: Liberal Feature-based Distillation for Dense Retrieval

要約

知識の蒸留は、強力な教師モデルから比較的弱い生徒モデルに知識を伝達するためによく使用されます。
従来の方法には、応答ベースの方法と特徴ベースの方法が含まれます。
応答ベースの方法は広く使用されていますが、中間信号を無視するためパフォーマンスの上限が低いという問題があります。一方、特徴ベースの方法には語彙、トークナイザー、およびモデル アーキテクチャに制約があります。
この論文では、リベラル特徴ベース蒸留法 (LEAD) を提案します。
LEAD は、教師モデルと学生モデルの中間層間の分散を調整します。これは効果的で、拡張可能で、移植可能であり、語彙、トークナイザー、またはモデル アーキテクチャに関する要件がありません。
広範な実験により、MS MARCO パッセージ ランキング、TREC 2019 DL トラック、MS MARCO ドキュメント ランキング、TREC 2020 DL トラックなどの広く使用されているベンチマークにおける LEAD の有効性が示されています。
私たちのコードは https://github.com/microsoft/SimXNS/tree/main/LEAD で入手できます。

要約(オリジナル)

Knowledge distillation is often used to transfer knowledge from a strong teacher model to a relatively weak student model. Traditional methods include response-based methods and feature-based methods. Response-based methods are widely used but suffer from lower upper limits of performance due to their ignorance of intermediate signals, while feature-based methods have constraints on vocabularies, tokenizers and model architectures. In this paper, we propose a liberal feature-based distillation method (LEAD). LEAD aligns the distribution between the intermediate layers of teacher model and student model, which is effective, extendable, portable and has no requirements on vocabularies, tokenizers, or model architectures. Extensive experiments show the effectiveness of LEAD on widely-used benchmarks, including MS MARCO Passage Ranking, TREC 2019 DL Track, MS MARCO Document Ranking and TREC 2020 DL Track. Our code is available in https://github.com/microsoft/SimXNS/tree/main/LEAD.

arxiv情報

著者 Hao Sun,Xiao Liu,Yeyun Gong,Anlei Dong,Jingwen Lu,Yan Zhang,Linjun Yang,Rangan Majumder,Nan Duan
発行日 2023-12-11 09:41:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク