要約
受動的音響モニタリングと機械学習の進歩により、計算による生体音響研究のための膨大なデータセットの調達が可能になりました。
それにもかかわらず、希少種や過小評価されている種については、データ不足が依然として問題となっています。
この研究では、豊富で多様なメタデータが利用できるため、鳥類を事例研究として利用し、メタ情報がゼロショット音声分類をどのように改善できるかを調査します。
私たちは、(S)BERT を介してエンコードされたテキストによる鳥の鳴き声の説明、機能的形質 (AVONET)、および鳥の生活履歴 (BLH) 特性という 3 つの異なるメタデータ ソースを調査します。
オーディオ特徴として、オーディオ スペクトログラム トランスフォーマー (AST) エンベディングを抽出し、単一の線形レイヤーを採用することで補助情報の次元に投影します。
次に、互換性関数としてドット積を使用し、標準のゼロショット学習ランキング ヒンジ損失を使用して、正しいクラスを決定します。
AVONET と BLH の機能を連結することで最良の結果が得られ、8 ~ 10 クラスの 5 つの異なるテスト セットにわたって、加重なしの平均 F1 スコア 0.233 を達成します。
要約(オリジナル)
Advances in passive acoustic monitoring and machine learning have led to the procurement of vast datasets for computational bioacoustic research. Nevertheless, data scarcity is still an issue for rare and underrepresented species. This study investigates how meta-information can improve zero-shot audio classification, utilising bird species as an example case study due to the availability of rich and diverse meta-data. We investigate three different sources of metadata: textual bird sound descriptions encoded via (S)BERT, functional traits (AVONET), and bird life-history (BLH) characteristics. As audio features, we extract audio spectrogram transformer (AST) embeddings and project them to the dimension of the auxiliary information by adopting a single linear layer. Then, we employ the dot product as compatibility function and a standard zero-shot learning ranking hinge loss to determine the correct class. The best results are achieved by concatenating the AVONET and BLH features attaining a mean unweighted F1-score of .233 over five different test sets with 8 to 10 classes.
arxiv情報
著者 | Alexander Gebhard,Andreas Triantafyllopoulos,Teresa Bez,Lukas Christ,Alexander Kathan,Björn W. Schuller |
発行日 | 2024-06-11 17:29:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google