Oracle Teacher: Leveraging Target Information for Better Knowledge Distillation of CTC Models


知識蒸留 (KD) は、モデル圧縮の効果的な方法として最もよく知られており、より大きなネットワーク (教師) の知識をはるかに小さなネットワーク (生徒) に転送することを目的としています。
従来の KD 手法では通常、教師ありの方法でトレーニングされた教師モデルが使用され、出力ラベルはターゲットとしてのみ扱われます。
この教師ありスキームをさらに拡張して、コネクショニスト時間分類 (CTC) ベースのシーケンス モデル用の新しいタイプの教師モデル、つまり Oracle Teacher を導入します。これは、ソース入力と出力ラベルの両方を教師モデルの入力として利用します。
提案されたアプローチの潜在的なリスクの 1 つは、モデルの出力がターゲットの入力を直接コピーするという自明な解決策であることです。
CTC アルゴリズムの多対 1 マッピング特性に基づいて、自明な解決策を効果的に防止できるトレーニング戦略を提示します。これにより、モデルのトレーニングにソースとターゲットの両方の入力を利用できるようになります。
音声認識とシーンテキスト認識という 2 つのシーケンス学習タスクについて広範な実験が行われています。


Knowledge distillation (KD), best known as an effective method for model compression, aims at transferring the knowledge of a bigger network (teacher) to a much smaller network (student). Conventional KD methods usually employ the teacher model trained in a supervised manner, where output labels are treated only as targets. Extending this supervised scheme further, we introduce a new type of teacher model for connectionist temporal classification (CTC)-based sequence models, namely Oracle Teacher, that leverages both the source inputs and the output labels as the teacher model’s input. Since the Oracle Teacher learns a more accurate CTC alignment by referring to the target information, it can provide the student with more optimal guidance. One potential risk for the proposed approach is a trivial solution that the model’s output directly copies the target input. Based on a many-to-one mapping property of the CTC algorithm, we present a training strategy that can effectively prevent the trivial solution and thus enables utilizing both source and target inputs for model training. Extensive experiments are conducted on two sequence learning tasks: speech recognition and scene text recognition. From the experimental results, we empirically show that the proposed model improves the students across these tasks while achieving a considerable speed-up in the teacher model’s training time.


著者 Ji Won Yoon,Hyung Yong Kim,Hyeonseung Lee,Sunghwan Ahn,Nam Soo Kim
発行日 2023-08-11 16:15:45+00:00
カテゴリー: cs.LG, eess.AS, eess.IV