Sequence-Level Knowledge Distillation for Class-Incremental End-to-End Spoken Language Understanding

要約

新しい概念を順番に学習する能力は、現代のニューラル ネットワークの大きな弱点であり、非定常環境での使用を妨げています。
過去に得た知識を犠牲にして現在のデータ分布に当てはめる傾向が、壊滅的な忘却の問題を引き起こします。
この研究では、継続的な学習環境に適用される音声言語理解の問題に取り組みます。
まず、SLURP データセットのクラス増分シナリオを定義します。
次に、系列間変換モデルの忘却を軽減するための 3 つの知識蒸留 (KD) アプローチを提案します。最初の KD 手法はエンコーダ出力 (オーディオ KD) に適用され、他の 2 つはデコーダ出力に適用されます。
トークンレベル (tok-KD) のディストリビューションまたはシーケンスレベル (seq-KD) のディストリビューションに直接適用されます。
seq-KD がすべてのパフォーマンス メトリックを大幅に改善し、audio-KD と組み合わせることで平均 WER がさらに減少し、エンティティ予測メトリックが強化されることを示します。

要約(オリジナル)

The ability to learn new concepts sequentially is a major weakness for modern neural networks, which hinders their use in non-stationary environments. Their propensity to fit the current data distribution to the detriment of the past acquired knowledge leads to the catastrophic forgetting issue. In this work we tackle the problem of Spoken Language Understanding applied to a continual learning setting. We first define a class-incremental scenario for the SLURP dataset. Then, we propose three knowledge distillation (KD) approaches to mitigate forgetting for a sequence-to-sequence transformer model: the first KD method is applied to the encoder output (audio-KD), and the other two work on the decoder output, either directly on the token-level (tok-KD) or on the sequence-level (seq-KD) distributions. We show that the seq-KD substantially improves all the performance metrics, and its combination with the audio-KD further decreases the average WER and enhances the entity prediction metric.

arxiv情報

著者 Umberto Cappellazzo,Muqiao Yang,Daniele Falavigna,Alessio Brutti
発行日 2023-07-31 19:02:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク