要約
音声分類は、幅広い用途の音声および音声処理タスクにおいて重要な役割を果たします。
モデルをトレーニング データに適合させる (過剰適合を回避する) ことと、モデルを新しい領域に適切に一般化できるようにすることとの間で適切なバランスを取るという課題がまだ残っています。
対照学習の転移可能性を活用して、堅牢な汎用性を特徴とする効率的なアプローチであるオーディオ コントラスト ベースの微調整 (AudioConFit) を導入します。
さまざまな音声分類タスクに関する実証実験により、さまざまな設定で最先端の結果を達成する私たちのアプローチの有効性と堅牢性が実証されています。
要約(オリジナル)
Audio classification plays a crucial role in speech and sound processing tasks with a wide range of applications. There still remains a challenge of striking the right balance between fitting the model to the training data (avoiding overfitting) and enabling it to generalise well to a new domain. Leveraging the transferability of contrastive learning, we introduce Audio Contrastive-based Fine-tuning (AudioConFit), an efficient approach characterised by robust generalisability. Empirical experiments on a variety of audio classification tasks demonstrate the effectiveness and robustness of our approach, which achieves state-of-the-art results in various settings.
arxiv情報
著者 | Yang Wang,Qibin Liang,Chenghao Xiao,Yizhi Li,Noura Al Moubayed,Chenghua Lin |
発行日 | 2023-09-22 09:09:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google