Transferable Models for Bioacoustics with Human Language Supervision


この研究では、対照的な言語と音声の事前トレーニングに基づいた生体音響の新しいモデルである BioLingual を提案します。
まず、生物音響アーカイブを AnimalSpeak と呼ばれる言語音声データセットに集約します。このデータセットには、種、発声コンテキスト、動物の行動に関する情報が含まれる 100 万を超える音声とキャプションのペアが含まれています。
このデータセットで言語表現と音声表現を結び付けるトレーニングを行った後、私たちのモデルは分類群全体で 1,000 種を超える種の鳴き声を識別し、生物音響タスクをゼロショットで完了し、自然なテキスト クエリから動物の発声記録を取得できます。
BioLingual を微調整すると、動物の鳴き声のベンチマークの 9 つのタスクで新しい最先端の機能が確立されます。
幅広い分類群をカバーし、人間の言語で柔軟にクエリできる能力を考慮すると、このモデルは、世界の音響モニタリング アーカイブのフリーテキスト検索など、生態学的モニタリングと研究における新しいパラダイムを開くものと考えられます。


Passive acoustic monitoring offers a scalable, non-invasive method for tracking global biodiversity and anthropogenic impacts on species. Although deep learning has become a vital tool for processing this data, current models are inflexible, typically cover only a handful of species, and are limited by data scarcity. In this work, we propose BioLingual, a new model for bioacoustics based on contrastive language-audio pretraining. We first aggregate bioacoustic archives into a language-audio dataset, called AnimalSpeak, with over a million audio-caption pairs holding information on species, vocalization context, and animal behavior. After training on this dataset to connect language and audio representations, our model can identify over a thousand species’ calls across taxa, complete bioacoustic tasks zero-shot, and retrieve animal vocalization recordings from natural text queries. When fine-tuned, BioLingual sets a new state-of-the-art on nine tasks in the Benchmark of Animal Sounds. Given its broad taxa coverage and ability to be flexibly queried in human language, we believe this model opens new paradigms in ecological monitoring and research, including free-text search on the world’s acoustic monitoring archives. We open-source our models, dataset, and code.


著者 David Robinson,Adelaide Robinson,Lily Akrapongpisak
発行日 2023-08-09 14:22:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.LG, cs.SD, eess.AS, q-bio.QM パーマリンク