要約
自己教師あり学習 (SSL) 基盤モデルは、幅広いタスクに適用できる強力でドメインに依存しない汎用の特徴抽出ツールとして登場しました。
人間の音声で事前にトレーニングされたこのようなモデルは、生体音響処理の高い伝達性を実証しています。
この論文では、(i) 動物の発声について直接事前トレーニングされた SSL モデルが、音声について事前トレーニングされた SSL モデルよりも大きな利点があるかどうか、(ii) 自動音声認識 (ASR) タスクで音声事前トレーニングされたモデルを微調整することで向上できるかどうかを調査します。
生物音響分類。
3 つの多様な生体音響データセットと 2 つの異なる生体音響タスクを使用して比較分析を実行します。
結果は、生体音響データの事前トレーニングでは、音声で事前トレーニングされたモデルに比べてわずかな改善しか得られず、ほとんどのシナリオで同等のパフォーマンスが得られることを示しています。
ASR タスクの微調整ではさまざまな結果が得られます。これは、SSL 事前トレーニング中に学習された汎用表現がすでに生体音響タスクに適していることを示唆しています。
これらの発見は、生体音響用の音声事前学習済み SSL モデルの堅牢性を強調しており、最適なパフォーマンスを得るために大規模な微調整は必要ない可能性があることを示唆しています。
要約(オリジナル)
Self-supervised learning (SSL) foundation models have emerged as powerful, domain-agnostic, general-purpose feature extractors applicable to a wide range of tasks. Such models pre-trained on human speech have demonstrated high transferability for bioacoustic processing. This paper investigates (i) whether SSL models pre-trained directly on animal vocalizations offer a significant advantage over those pre-trained on speech, and (ii) whether fine-tuning speech-pretrained models on automatic speech recognition (ASR) tasks can enhance bioacoustic classification. We conduct a comparative analysis using three diverse bioacoustic datasets and two different bioacoustic tasks. Results indicate that pre-training on bioacoustic data provides only marginal improvements over speech-pretrained models, with comparable performance in most scenarios. Fine-tuning on ASR tasks yields mixed outcomes, suggesting that the general-purpose representations learned during SSL pre-training are already well-suited for bioacoustic tasks. These findings highlight the robustness of speech-pretrained SSL models for bioacoustics and imply that extensive fine-tuning may not be necessary for optimal performance.
arxiv情報
著者 | Eklavya Sarkar,Mathew Magimai. -Doss |
発行日 | 2025-01-10 14:18:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google