要約
自己教師あり学習 (SSL) は、ラベルのない音声の大規模なデータセットを活用して、注釈付きデータの量を減らしながら優れたパフォーマンスを実現します。
多数のアプローチが提案されたことにより、音声信号のさまざまな側面を調査する一連の下流タスクでのパフォーマンスを評価する包括的なベンチマークの出現が促進されました。
ただし、考慮されるタスクの数は増加している一方で、ほとんどの提案は、凍結された SSL 表現をタスク ラベルにマッピングする単一の下流アーキテクチャに依存しています。
この研究では、プロービング ヘッド アーキテクチャの変更がベンチマーク結果にどのような影響を与えるかを調査します。
興味深いことに、下流のアーキテクチャ構造を変更すると、評価されたモデルのパフォーマンス ランキングに大きな変動が生じることがわかりました。
音声 SSL ベンチマークの一般的な手法に対して、大容量のプロービング ヘッドを評価し、パフォーマンス、推論コスト、一般化、およびマルチレベルの機能活用への影響を示します。
要約(オリジナル)
Self-supervised learning (SSL) leverages large datasets of unlabeled speech to reach impressive performance with reduced amounts of annotated data. The high number of proposed approaches fostered the emergence of comprehensive benchmarks that evaluate their performance on a set of downstream tasks exploring various aspects of the speech signal. However, while the number of considered tasks has been growing, most proposals rely upon a single downstream architecture that maps the frozen SSL representations to the task labels. This study examines how benchmarking results are affected by changes in the probing head architecture. Interestingly, we found that altering the downstream architecture structure leads to significant fluctuations in the performance ranking of the evaluated models. Against common practices in speech SSL benchmarking, we evaluate larger-capacity probing heads, showing their impact on performance, inference costs, generalization and multi-level feature exploitation.
arxiv情報
著者 | Salah Zaiem,Youcef Kemiche,Titouan Parcollet,Slim Essid,Mirco Ravanelli |
発行日 | 2024-02-21 16:57:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google