WhaleNet: a Novel Deep Learning Architecture for Marine Mammals Vocalizations on Watkins Marine Mammal Sound Database

要約

海洋哺乳類のコミュニケーションは複雑な分野であり、発声の多様性や環境要因によって妨げられます。
Watkins Marine Mammal Sound Database (WMMD) は、機械学習アプリケーションで使用される包括的なラベル付きデータセットを構成します。
それにもかかわらず、文献に記載されているデータの準備、前処理、分類の方法論にはかなりのばらつきがあり、通常はデータセット全体に適用されるわけではありません。
この研究ではまず、データの準備と前処理技術の明確化に特に焦点を当てて、データセットに関する最先端のベンチマークの簡潔なレビューを行います。
続いて、特徴抽出の前処理メカニズムとしてウェーブレット散乱変換 (WST) とメル スペクトログラムの利用を検討します。
この論文では、強化された特徴識別のために WST とメル スペクトログラムの両方を活用して、海洋哺乳類の鳴き声を分類するための洗練されたディープ アンサンブル アーキテクチャである \textbf{WhaleNet} (ウェーブレット高適応学習アンサンブル ネットワーク) を紹介します。
WST 表現と Mel 表現から得られた洞察を統合することで、既存のアーキテクチャと比較して $8-10\%$ の分類精度の向上を達成しました。これは $97.61\%$ の分類精度に相当します。

要約(オリジナル)

Marine mammal communication is a complex field, hindered by the diversity of vocalizations and environmental factors. The Watkins Marine Mammal Sound Database (WMMD) constitutes a comprehensive labeled dataset employed in machine learning applications. Nevertheless, the methodologies for data preparation, preprocessing, and classification documented in the literature exhibit considerable variability and are typically not applied to the dataset in its entirety. This study initially undertakes a concise review of the state-of-the-art benchmarks pertaining to the dataset, with a particular focus on clarifying data preparation and preprocessing techniques. Subsequently, we explore the utilization of the Wavelet Scattering Transform (WST) and Mel spectrogram as preprocessing mechanisms for feature extraction. In this paper, we introduce \textbf{WhaleNet} (Wavelet Highly Adaptive Learning Ensemble Network), a sophisticated deep ensemble architecture for the classification of marine mammal vocalizations, leveraging both WST and Mel spectrogram for enhanced feature discrimination. By integrating the insights derived from WST and Mel representations, we achieved an improvement in classification accuracy by $8-10\%$ over existing architectures, corresponding to a classification accuracy of $97.61\%$.

arxiv情報

著者 Alessandro Licciardi,Davide Carbone
発行日 2024-06-26 14:34:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.SD, eess.AS, eess.SP パーマリンク