Oracle Teacher: Leveraging Target Information for Better Knowledge Distillation of CTC Models

要約

知識蒸留 (KD) は、モデル圧縮の効果的な方法として最もよく知られており、より大きなネットワーク (教師) の知識をはるかに小さなネットワーク (生徒) に転送することを目的としています。
従来の KD 手法では通常、教師ありの方法でトレーニングされた教師モデルが使用され、出力ラベルはターゲットとしてのみ扱われます。
この教師ありスキームをさらに拡張して、コネクショニスト時間分類 (CTC) ベースのシーケンス モデル用の新しいタイプの教師モデル、つまり Oracle Teacher を導入します。これは、ソース入力と出力ラベルの両方を教師モデルの入力として利用します。
オラクルティーチャーはターゲット情報を参照することでより正確なCTCアライメントを学習するため、生徒にとってより最適な指導が可能となります。
提案されたアプローチの潜在的なリスクの 1 つは、モデルの出力がターゲットの入力を直接コピーするという自明な解決策であることです。
CTC アルゴリズムの多対 1 マッピング特性に基づいて、自明な解決策を効果的に防止できるトレーニング戦略を提示します。これにより、モデルのトレーニングにソースとターゲットの両方の入力を利用できるようになります。
音声認識とシーンテキスト認識という 2 つのシーケンス学習タスクについて広範な実験が行われています。
実験結果から、提案されたモデルが教師モデルのトレーニング時間の大幅な高速化を達成しながら、これらのタスク全体で生徒の能力を向上させることが経験的に示されています。

要約(オリジナル)

Knowledge distillation (KD), best known as an effective method for model compression, aims at transferring the knowledge of a bigger network (teacher) to a much smaller network (student). Conventional KD methods usually employ the teacher model trained in a supervised manner, where output labels are treated only as targets. Extending this supervised scheme further, we introduce a new type of teacher model for connectionist temporal classification (CTC)-based sequence models, namely Oracle Teacher, that leverages both the source inputs and the output labels as the teacher model’s input. Since the Oracle Teacher learns a more accurate CTC alignment by referring to the target information, it can provide the student with more optimal guidance. One potential risk for the proposed approach is a trivial solution that the model’s output directly copies the target input. Based on a many-to-one mapping property of the CTC algorithm, we present a training strategy that can effectively prevent the trivial solution and thus enables utilizing both source and target inputs for model training. Extensive experiments are conducted on two sequence learning tasks: speech recognition and scene text recognition. From the experimental results, we empirically show that the proposed model improves the students across these tasks while achieving a considerable speed-up in the teacher model’s training time.

arxiv情報

著者 Ji Won Yoon,Hyung Yong Kim,Hyeonseung Lee,Sunghwan Ahn,Nam Soo Kim
発行日 2023-08-11 16:15:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.AS, eess.IV パーマリンク