要約
オーディオの自己教師あり学習 (SSL) は、さまざまなドメインにわたって大きな可能性を秘めており、特にラベルのない豊富なデータが無料ですぐに利用できる状況では顕著です。
これは、生物学者が自然環境から広範な音響データセットを日常的に収集する生物音響学に特に当てはまります。
この研究では、SSL が注釈を必要とせずに、音声録音から鳥の鳴き声の意味のある表現を取得できることを実証します。
私たちの実験は、これらの学習された表現が、少数ショット学習 (FSL) シナリオで新しい鳥種に一般化する能力を示すことを示しています。
さらに、事前学習済みのオーディオ ニューラル ネットワークを使用して、自己教師あり学習のためにバードの活性化が高いウィンドウを選択すると、学習された表現の品質が大幅に向上することを示します。
要約(オリジナル)
Self-supervised learning (SSL) in audio holds significant potential across various domains, particularly in situations where abundant, unlabeled data is readily available at no cost. This is particularly pertinent in bioacoustics, where biologists routinely collect extensive sound datasets from the natural environment. In this study, we demonstrate that SSL is capable of acquiring meaningful representations of bird sounds from audio recordings without the need for annotations. Our experiments showcase that these learned representations exhibit the capacity to generalize to new bird species in few-shot learning (FSL) scenarios. Additionally, we show that selecting windows with high bird activation for self-supervised learning, using a pretrained audio neural network, significantly enhances the quality of the learned representations.
arxiv情報
著者 | Ilyass Moummad,Romain Serizel,Nicolas Farrugia |
発行日 | 2023-12-28 14:36:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google