Active Bird2Vec: Towards End-to-End Bird Sound Monitoring with Transformers

要約

私たちは、自己教師あり (SSL) とディープアクティブラーニング (DAL) を組み合わせることにより、鳥の鳴き声モニタリングにおけるエンドツーエンド学習への移行を提案します。
トランスフォーマー モデルを活用することで、従来のスペクトログラム変換をバイパスし、生のオーディオを直接処理できるようにすることを目指しています。
ActiveBird2Vec は、SSL を通じて高品質の鳥の鳴き声表現を生成するように設定されており、環境変化の評価と風力発電所の意思決定プロセスを加速する可能性があります。
さらに、DAL を通じてさまざまな鳥の鳴き声を利用し、人間の専門家によって広範囲にラベル付けされたデータセットへの依存を減らすことを目指しています。
私たちは、Huggingface Datasets を通じて包括的な一連のタスクを厳選し、生物音響研究の将来の比較可能性と再現性を強化する予定です。
鳥の音認識タスクにおける習熟度を評価するために、さまざまな変圧器モデル間の比較分析が行われます。
私たちは鳥類の生物音響研究の進歩を加速し、より効果的な保護戦略に貢献することを目指しています。

要約(オリジナル)

We propose a shift towards end-to-end learning in bird sound monitoring by combining self-supervised (SSL) and deep active learning (DAL). Leveraging transformer models, we aim to bypass traditional spectrogram conversions, enabling direct raw audio processing. ActiveBird2Vec is set to generate high-quality bird sound representations through SSL, potentially accelerating the assessment of environmental changes and decision-making processes for wind farms. Additionally, we seek to utilize the wide variety of bird vocalizations through DAL, reducing the reliance on extensively labeled datasets by human experts. We plan to curate a comprehensive set of tasks through Huggingface Datasets, enhancing future comparability and reproducibility of bioacoustic research. A comparative analysis between various transformer models will be conducted to evaluate their proficiency in bird sound recognition tasks. We aim to accelerate the progression of avian bioacoustic research and contribute to more effective conservation strategies.

arxiv情報

著者 Lukas Rauch,Raphael Schwinger,Moritz Wirth,Bernhard Sick,Sven Tomforde,Christoph Scholz
発行日 2023-08-14 13:06:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.LG, cs.SD, eess.AS パーマリンク