要約
人間と同様に、動物も広範囲の音声信号を含む言語および非言語形式のコミュニケーションを広範囲に利用します。
この論文では、犬の発声に取り組み、音声認識における人間中心のタスクとの類似点を見つける犬の鳴き声分類タスクに取り組むために、人間の音声で事前にトレーニングされた自己教師付き音声表現モデルの使用を検討します。
私たちは特に、犬の認識、品種の識別、性別の分類、およびコンテキストのグラウンディングという 4 つのタスクに取り組みます。
音声埋め込み表現を使用すると、単純な分類ベースラインよりも大幅に改善されることを示します。
さらに、大規模な人間の音声音響で事前トレーニングされたモデルが、いくつかのタスクのパフォーマンスをさらに向上させることができることもわかりました。
要約(オリジナル)
Similar to humans, animals make extensive use of verbal and non-verbal forms of communication, including a large range of audio signals. In this paper, we address dog vocalizations and explore the use of self-supervised speech representation models pre-trained on human speech to address dog bark classification tasks that find parallels in human-centered tasks in speech recognition. We specifically address four tasks: dog recognition, breed identification, gender classification, and context grounding. We show that using speech embedding representations significantly improves over simpler classification baselines. Further, we also find that models pre-trained on large human speech acoustics can provide additional performance boosts on several tasks.
arxiv情報
著者 | Artem Abzaliev,Humberto Pérez Espinosa,Rada Mihalcea |
発行日 | 2024-04-29 14:41:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google