Continual Contrastive Spoken Language Understanding

要約

最近、ニューラル ネットワークはさまざまな分野で目覚ましい進歩を遂げており、音声処理も例外ではありません。
ただし、この分野における最近の進歩には、大規模なデータセットと膨大なコンピューティング リソースを使用した広範なオフライン トレーニングが必要です。
残念ながら、これらのモデルは、新しいタスクを継続的に学習するときに以前に取得した知識を保持するのに苦労しており、最初から再トレーニングすることはほとんどの場合非現実的です。
この論文では、クラス増分学習 (CIL) 設定における音声言語理解のためのシーケンスツーシーケンス モデルの学習の問題を調査し、経験の再生と対照学習の組み合わせに依存する CIL 手法である COCONUT を提案します。
リハーサル サンプルにのみ適用される標準教師ありコントラスト損失の修正バージョンを通じて、COCONUT は、同じクラスから近いサンプルを引き出し、他のサンプルを押しのけることで、学習した表現を保存します。
さらに、オーディオとテキストの特徴を調整することで、モデルが新しいデータのより識別可能な表現を学習できるようにするマルチモーダルなコントラスト損失を活用します。
また、コントラスト損失の長所と蒸留に使用される教師と生徒のアーキテクチャを組み合わせるために、さまざまなコントラスト設計も調査します。
2 つの確立された SLU データセットでの実験により、提案されたアプローチの有効性とベースラインに対する大幅な改善が明らかになりました。
また、COCONUT をモデルのデコーダー側で動作するメソッドと組み合わせて、メトリクスをさらに改善できることも示します。

要約(オリジナル)

Recently, neural networks have shown impressive progress across diverse fields, with speech processing being no exception. However, recent breakthroughs in this area require extensive offline training using large datasets and tremendous computing resources. Unfortunately, these models struggle to retain their previously acquired knowledge when learning new tasks continually, and retraining from scratch is almost always impractical. In this paper, we investigate the problem of learning sequence-to-sequence models for spoken language understanding in a class-incremental learning (CIL) setting and we propose COCONUT, a CIL method that relies on the combination of experience replay and contrastive learning. Through a modified version of the standard supervised contrastive loss applied only to the rehearsal samples, COCONUT preserves the learned representations by pulling closer samples from the same class and pushing away the others. Moreover, we leverage a multimodal contrastive loss that helps the model learn more discriminative representations of the new data by aligning audio and text features. We also investigate different contrastive designs to combine the strengths of the contrastive loss with teacher-student architectures used for distillation. Experiments on two established SLU datasets reveal the effectiveness of our proposed approach and significant improvements over the baselines. We also show that COCONUT can be combined with methods that operate on the decoder side of the model, resulting in further metrics improvements.

arxiv情報

著者 Umberto Cappellazzo,Enrico Fini,Muqiao Yang,Daniele Falavigna,Alessio Brutti,Bhiksha Raj
発行日 2024-05-29 15:43:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, eess.AS パーマリンク