AudioProtoPNet: An interpretable deep learning model for bird sound classification

要約

深層学習モデルは、鳴き声に基づいて多数の鳥の種を認識できるため、音響鳥の監視が大幅に進歩しました。
ただし、従来の深層学習モデルはブラック ボックスであり、その基礎となる計算に関する洞察が得られず、その有用性は鳥類学者や機械学習エンジニアに限定されていました。
説明可能なモデルは、デバッグ、知識の発見、信頼、および学際的なコラボレーションを促進する可能性があります。
この研究では、Prototypical Part Network (ProtoPNet) をマルチラベルの鳥の音分類に適応させた AudioProtoPNet を紹介します。
これは、ConvNeXt バックボーンを使用してエンベディングを抽出する本質的に解釈可能なモデルであり、分類層はこれらのエンベディングでトレーニングされたプロトタイプ学習分類器に置き換えられます。
分類器は、トレーニング インスタンスのスペクトログラムから、各鳥種の発声のプロトタイプ パターンを学習します。
推論中、音声録音は埋め込み空間で学習されたプロトタイプと比較することによって分類され、モデルの決定の説明と各鳥種の最も有益な埋め込みに関する洞察が提供されます。
このモデルは、9,734 種の鳥と 6,800 時間以上の記録で構成される BirdSet トレーニング データセットでトレーニングされました。
そのパフォーマンスは、さまざまな地理的領域をカバーする BirdSet の 7 つのテスト データセットで評価されました。
AudioProtoPNet は最先端モデルの Perch を上回り、平均 AUROC 0.90 と cmAP 0.42 を達成し、Perch よりもそれぞれ 7.1% と 16.7% の相対的な改善を実現しました。
これらの結果は、マルチラベルの鳥の鳴き声分類という困難なタスクであっても、鳥類学者や機械学習エンジニアに貴重な洞察を提供する、強力でありながら本質的に解釈可能な深層学習モデルを開発できることを示しています。

要約(オリジナル)

Deep learning models have significantly advanced acoustic bird monitoring by being able to recognize numerous bird species based on their vocalizations. However, traditional deep learning models are black boxes that provide no insight into their underlying computations, limiting their usefulness to ornithologists and machine learning engineers. Explainable models could facilitate debugging, knowledge discovery, trust, and interdisciplinary collaboration. This study introduces AudioProtoPNet, an adaptation of the Prototypical Part Network (ProtoPNet) for multi-label bird sound classification. It is an inherently interpretable model that uses a ConvNeXt backbone to extract embeddings, with the classification layer replaced by a prototype learning classifier trained on these embeddings. The classifier learns prototypical patterns of each bird species’ vocalizations from spectrograms of training instances. During inference, audio recordings are classified by comparing them to the learned prototypes in the embedding space, providing explanations for the model’s decisions and insights into the most informative embeddings of each bird species. The model was trained on the BirdSet training dataset, which consists of 9,734 bird species and over 6,800 hours of recordings. Its performance was evaluated on the seven test datasets of BirdSet, covering different geographical regions. AudioProtoPNet outperformed the state-of-the-art model Perch, achieving an average AUROC of 0.90 and a cmAP of 0.42, with relative improvements of 7.1% and 16.7% over Perch, respectively. These results demonstrate that even for the challenging task of multi-label bird sound classification, it is possible to develop powerful yet inherently interpretable deep learning models that provide valuable insights for ornithologists and machine learning engineers.

arxiv情報

著者 René Heinrich,Lukas Rauch,Bernhard Sick,Christoph Scholz
発行日 2024-11-13 16:42:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク