Align-to-Distill: Trainable Attention Alignment for Knowledge Distillation in Neural Machine Translation

要約

スケーラブルなディープ モデルと大規模なデータセットの出現により、ニューラル機械翻訳のパフォーマンスが向上しました。
知識蒸留 (KD) は、教師モデルからよりコンパクトな生徒モデルに知識を転送することで効率を高めます。
ただし、Transformer アーキテクチャに対する KD のアプローチは、特にどの教師層から抽出するかを決定する場合に、ヒューリスティックに依存することがよくあります。
この論文では、トレーニング中に生徒の注意を教師の対応者と適応的に調整することで、特徴マッピングの問題に対処するように設計された「Align-to-Distill」(A2D) 戦略を紹介します。
A2D のアテンション アラインメント モジュールは、レイヤー全体で生徒と教師のアテンション ヘッド間の高密度の頭ごとの比較を実行し、組み合わせマッピングのヒューリスティックを学習問題に変えます。
私たちの実験では A2D の有効性が示されており、Transformer のベースラインと比較して、WMT-2022 De->Dsb および WMT-2014 En->De でそれぞれ最大 +3.61 および +0.63 BLEU ポイントのゲインが実証されました。

要約(オリジナル)

The advent of scalable deep models and large datasets has improved the performance of Neural Machine Translation. Knowledge Distillation (KD) enhances efficiency by transferring knowledge from a teacher model to a more compact student model. However, KD approaches to Transformer architecture often rely on heuristics, particularly when deciding which teacher layers to distill from. In this paper, we introduce the ‘Align-to-Distill’ (A2D) strategy, designed to address the feature mapping problem by adaptively aligning student attention heads with their teacher counterparts during training. The Attention Alignment Module in A2D performs a dense head-by-head comparison between student and teacher attention heads across layers, turning the combinatorial mapping heuristics into a learning problem. Our experiments show the efficacy of A2D, demonstrating gains of up to +3.61 and +0.63 BLEU points for WMT-2022 De->Dsb and WMT-2014 En->De, respectively, compared to Transformer baselines.

arxiv情報

著者 Heegon Jin,Seonil Son,Jemin Park,Youngseok Kim,Hyungjong Noh,Yeonsoo Lee
発行日 2024-03-25 08:46:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, I.2.7 パーマリンク