Towards small and accurate convolutional neural networks for acoustic biodiversity monitoring

要約

動物の鳴き声の自動分類は、生物多様性の大規模モニタリングの前提条件です。
畳み込みニューラル ネットワーク (CNN) は最も有望なアルゴリズムの 1 つですが、速度が遅く、現場での分類が不十分なことが多く、通常は大規模なトレーニング データ セットが必要です。
私たちの目的は、推論時間が速く、中程度のサイズのデータ​​から学習しながら優れた分類パフォーマンスを達成する CNN を設計することでした。
熱帯雨林の生態系からの録音が使用されました。
20 種の鳥の鳴き声の開始点と終了点に手動で注釈が付けられました。
10 秒セグメントのスペクトログラムが CNN 入力として使用されました。
私たちは、出力ユニットがすべてのスペクトログラム周波数に接続されるが、時間のサブ領域である受容野 (RF) にのみ接続されるように、周波数アンラップ層 (SIMP-FU モデル) を備えたシンプルな CNN を設計しました。
私たちのモデルでは、さまざまな RF 持続時間を実験することができました。
モデルは、サウンドの開始点と終了点をエンコードする時間インデックス付きラベル、またはより単純なセグメントレベルのラベルを使用しました。
時間インデックス付きラベルから学習したモデルは、セグメント レベルのモデルよりもかなり優れたパフォーマンスを示しました。
最高の分類パフォーマンスは、中間 RF 継続時間が 1.5 秒のモデルで達成されました。
最良の SIMP-FU モデルは、テスト セットの 20 クラス中 18 クラスで 0.95 を超える AUC を達成しました。
コンパクトで低コストのハードウェア上で、最高の SIMP-FU モデルはリアルタイムのデータ取得よりも最大 7 倍高速に評価されました。
RF 持続時間は分類パフォーマンスの主な要因でした。
最適値の 1.5 秒は、音の持続時間と同じ範囲でした。
私たちのモデルは、中程度のサイズのトレーニング データから学習しながら、優れた分類パフォーマンスを達成しました。
これは、トレーニング中の時間インデックス付きラベルの使用と適切なサイズの RF によって説明されます。
結果は、コンパクトで低コストのデバイス上で優れた分類パフォーマンスを備えた小型 CNN を展開する実現可能性を裏付けています。

要約(オリジナル)

Automated classification of animal sounds is a prerequisite for large-scale monitoring of biodiversity. Convolutional Neural Networks (CNNs) are among the most promising algorithms but they are slow, often achieve poor classification in the field and typically require large training data sets. Our objective was to design CNNs that are fast at inference time and achieve good classification performance while learning from moderate-sized data. Recordings from a rainforest ecosystem were used. Start and end-point of sounds from 20 bird species were manually annotated. Spectrograms from 10 second segments were used as CNN input. We designed simple CNNs with a frequency unwrapping layer (SIMP-FU models) such that any output unit was connected to all spectrogram frequencies but only to a sub-region of time, the Receptive Field (RF). Our models allowed experimentation with different RF durations. Models either used the time-indexed labels that encode start and end-point of sounds or simpler segment-level labels. Models learning from time-indexed labels performed considerably better than their segment-level counterparts. Best classification performances was achieved for models with intermediate RF duration of 1.5 seconds. The best SIMP-FU models achieved AUCs over 0.95 in 18 of 20 classes on the test set. On compact low-cost hardware the best SIMP-FU models evaluated up to seven times faster than real-time data acquisition. RF duration was a major driver of classification performance. The optimum of 1.5 s was in the same range as the duration of the sounds. Our models achieved good classification performance while learning from moderate-sized training data. This is explained by the usage of time-indexed labels during training and adequately sized RF. Results confirm the feasibility of deploying small CNNs with good classification performance on compact low-cost devices.

arxiv情報

著者 Serge Zaugg,Mike van der Schaar,Florence Erbs,Antonio Sanchez,Joan V. Castell,Emiliano Ramallo,Michel André
発行日 2023-12-06 18:34:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク