ISPA: Inter-Species Phonetic Alphabet for Transcribing Animal Sounds


従来、生体音響学では、動物の鳴き声の分析にスペクトログラムやフレームごとの連続的な音声表現を用いており、機械学習モデルの入力としても利用されてきました。一方、IPA(International Phonetic Alphabet:国際音声記号)システムは、解釈可能で言語に依存しない人間の音声の転写方法を提供してきました。本論文では、動物の音声をテキストに書き起こすために設計された、正確かつ簡潔で解釈可能なシステムであるISPA(Inter-Species Phonetic Alphabet)を紹介する。動物の鳴き声を文字化し分類するために、音響学に基づく方法と特徴量に基づく方法を比較し、連続的で高密度な音声表現を利用する基本的な方法と同等の性能を実証する。動物の鳴き声をテキストで表現することで、動物の鳴き声を効果的に「外国語」として扱い、言語モデルのような確立された人間の言語MLのパラダイムとモデルをうまく適用して性能を向上できることを示す。


Traditionally, bioacoustics has relied on spectrograms and continuous, per-frame audio representations for the analysis of animal sounds, also serving as input to machine learning models. Meanwhile, the International Phonetic Alphabet (IPA) system has provided an interpretable, language-independent method for transcribing human speech sounds. In this paper, we introduce ISPA (Inter-Species Phonetic Alphabet), a precise, concise, and interpretable system designed for transcribing animal sounds into text. We compare acoustics-based and feature-based methods for transcribing and classifying animal sounds, demonstrating their comparable performance with baseline methods utilizing continuous, dense audio representations. By representing animal sounds with text, we effectively treat them as a ‘foreign language,’ and we show that established human language ML paradigms and models, such as language models, can be successfully applied to improve performance.


著者 Masato Hagiwara,Marius Miron,Jen-Yu Liu
発行日 2024-02-05 18:27:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.CL, cs.LG, cs.SD パーマリンク