A Neural Transformer Framework for Simultaneous Tasks of Segmentation, Classification, and Caller Identification of Marmoset Vocalization

要約

マーモセットは、高度に鳴き声を発する霊長類であり、社会的コミュニケーション行動とその根底にあるメカニズムを研究するための人気のある動物モデルとなっています。
音声コミュニケーションの研究では、発信者の身元、通話内容、音声のやり取りを知ることが重要です。
CNN のこれまでの研究では、マーモセットの鳴き声のセグメント化、分類、発信者識別のための統合モデルが実現されました。
ただし、CNN には長距離の音響パターンをモデル化する際に制限があります。
CNN を上回るパフォーマンスを示すことが証明されている Transformer アーキテクチャは、長距離にわたって情報を効率的に並行して分離し、マーモセットの鳴き声の全体的な構造を捕捉する自己注意メカニズムを利用しています。
私たちは、Transformer を使用してマーモセットの鳴き声を共同でセグメント化および分類し、各鳴き声の発信者を識別することを提案します。

要約(オリジナル)

Marmoset, a highly vocalized primate, has become a popular animal model for studying social-communicative behavior and its underlying mechanism. In the study of vocal communication, it is vital to know the caller identities, call contents, and vocal exchanges. Previous work of a CNN has achieved a joint model for call segmentation, classification, and caller identification for marmoset vocalizations. However, the CNN has limitations in modeling long-range acoustic patterns; the Transformer architecture that has been shown to outperform CNNs, utilizes the self-attention mechanism that efficiently segregates information parallelly over long distances and captures the global structure of marmoset vocalization. We propose using the Transformer to jointly segment and classify the marmoset calls and identify the callers for each vocalization.

arxiv情報

著者 Bin Wu,Sakriani Sakti,Shinnosuke Takamichi,Satoshi Nakamura
発行日 2024-10-30 17:57:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク