Simultaneous or Sequential Training? How Speech Representations Cooperate in a Multi-Task Self-Supervised Learning System

要約

自己教師ありアルゴリズムによる音声表現学習により、多くの下流タスクのパフォーマンスが顕著に向上しました。
最近の研究では、自己教師あり学習 (SSL) と視覚的接地音声 (VGS) の処理メカニズムを組み合わせて表現学習を行いました。
SSL および VGS メカニズムを使用した共同トレーニングでは、データの可用性に基づいて、ラベルのない音声と音声関連の視覚情報の両方を利用する機会が提供されます。
これにより、特に意味レベルおよび語彙レベルの知識のエンコードにおいて、学習された表現の品質が向上することが示されています。
この研究では、マルチタスク学習システムとしての wav2vec 2.0 ベースの SSL とトランスフォーマーベースの VGS の共同最適化をさらに研究します。
一連のトレーニング シナリオを検討して、音声表現が 2 つのタスク間でどのように共有または転送されるか、また、クロスモーダルな意味検索と音素識別のパフォーマンスに最適なトレーニング戦略は何かを理解します。
その結果、最初に wav2vec 2.0、次に VGS を使用した逐次トレーニングの方が、両方の学習メカニズムを同時に最適化する場合と比較して、視聴覚検索のパフォーマンスが向上することがわかりました。
ただし、SSL-VGS トレーニングを並行して行うと、最適化基準を切り替える際の致命的な忘却の影響が軽減されます。
さらに、結果は、VGS メカニズムを通じて学習された音素表現は、SSL で学習されたものと比較して、データセット全体でよりよく一般化できる可能性があることを示唆しています。

要約(オリジナル)

Speech representation learning with self-supervised algorithms has resulted in notable performance boosts in many downstream tasks. Recent work combined self-supervised learning (SSL) and visually grounded speech (VGS) processing mechanisms for representation learning. The joint training with SSL and VGS mechanisms provides the opportunity to utilize both unlabeled speech and speech-related visual information based on data availability. This has shown to enhance the quality of learned representations, especially at encoding semantic- and lexical-level knowledge. In this work, we further study the joint optimization of wav2vec 2.0-based SSL and transformer-based VGS as a multi-task learning system. We explore a set of training scenarios to understand how speech representations are shared or transferred between the two tasks, and what is the optimal training strategy for cross-modal semantic retrieval and phoneme discrimination performance. As a result, we find that sequential training with wav2vec 2.0 first and VGS next provides higher performance on audio-visual retrieval compared to simultaneous optimization of both learning mechanisms. However, the parallel SSL-VGS training reduces the effects of catastrophic forgetting when switching between optimization criteria. Moreover, the results suggest that phonemic representations learned through the VGS mechanism may generalize better across datasets compared to those learned with SSL.

arxiv情報

著者 Khazar Khorrami,María Andrea Cruz Blandón,Tuomas Virtanen,Okko Räsänen
発行日 2023-06-05 15:35:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.AS パーマリンク