Revisiting Acoustic Similarity in Emotional Speech and Music via Self-Supervised Representations

要約

音声と音楽からの感情認識には、音響的な重複があるため類似点があり、これらの領域間で知識を伝達することへの関心が高まっています。
しかし、音声と音楽の SSL モデルがクロスドメイン研究に適用されることはほとんどないという事実を考慮すると、音声と音楽の間で共有される音響キュー、特に自己教師あり学習 (SSL) モデルによってエンコードされた音響キューは、ほとんど解明されていないままです。
この研究では、音声感情認識 (SER) と音楽感情認識 (MER) の SSL モデルの層ごとの動作の分析から始めて、感情音声と音楽の音響的類似性を再検討します。
さらに、2 段階の微調整プロセスでいくつかのアプローチを比較することでクロスドメイン適応を実行し、SER には音楽を、MER には音声を活用する効果的な方法を検討します。
最後に、個々の感情に対する Frechet 音声距離を使用して、感情的な音声と音楽の音響的類似性を調査し、音声と音楽の両方の SSL モデルにおける感情のバイアスの問題を明らかにします。
私たちの調査結果では、音声と音楽の SSL モデルは共通の音響特徴を捕捉しますが、その動作はトレーニング戦略とドメインの特異性により、さまざまな感情に応じて変化する可能性があることが明らかになりました。
さらに、パラメータ効率の高い微調整により、相互の知識を活用することで SER と MER のパフォーマンスを向上させることができます。
この研究は、感情的なスピーチと音楽の間の音響的な類似性について新たな洞察を提供し、SER および MER システムを改善するためのクロスドメイン一般化の可能性を強調しています。

要約(オリジナル)

Emotion recognition from speech and music shares similarities due to their acoustic overlap, which has led to interest in transferring knowledge between these domains. However, the shared acoustic cues between speech and music, particularly those encoded by Self-Supervised Learning (SSL) models, remain largely unexplored, given the fact that SSL models for speech and music have rarely been applied in cross-domain research. In this work, we revisit the acoustic similarity between emotion speech and music, starting with an analysis of the layerwise behavior of SSL models for Speech Emotion Recognition (SER) and Music Emotion Recognition (MER). Furthermore, we perform cross-domain adaptation by comparing several approaches in a two-stage fine-tuning process, examining effective ways to utilize music for SER and speech for MER. Lastly, we explore the acoustic similarities between emotional speech and music using Frechet audio distance for individual emotions, uncovering the issue of emotion bias in both speech and music SSL models. Our findings reveal that while speech and music SSL models do capture shared acoustic features, their behaviors can vary depending on different emotions due to their training strategies and domain-specificities. Additionally, parameter-efficient fine-tuning can enhance SER and MER performance by leveraging knowledge from each other. This study provides new insights into the acoustic similarity between emotional speech and music, and highlights the potential for cross-domain generalization to improve SER and MER systems.

arxiv情報

著者 Yujia Sun,Zeyu Zhao,Korin Richmond,Yuanchao Li
発行日 2024-09-26 14:49:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS パーマリンク