Temporal Modeling Matters: A Novel Temporal Emotional Modeling Approach for Speech Emotion Recognition

要約

音声感情認識 (SER) は、音声信号から人間の感情と感情状態を推測することにより、人間と機械の間の相互作用を改善する上で重要な役割を果たします。
最近の研究は主に手作りの機能から時空間情報をマイニングすることに焦点を当てていますが、動的な時間スケールから音声感情の時間パターンをモデル化する方法を探っています。
その目標に向けて、さまざまな時間スケールからマルチスケールのコンテキスト感情表現を学習する、Temporal-aware bi-directional Multi-scale Network (TIM-Net) と呼ばれる、SER の新しい時間的感情モデリング アプローチを紹介します。
具体的には、TIM-Net は、最初に時間認識ブロックを使用して時間的感情表現を学習し、次に過去と未来からの補完的な情報を統合して文脈表現を豊かにし、最後に複数の時間スケール機能を融合して感情的変化への適応を改善します。
6 つのベンチマーク SER データセットに関する広範な実験結果は、TIM-Net の優れたパフォーマンスを示しており、各コーパスで 2 番目に優れた平均 UAR および WAR を 2.34% および 2.61% 改善しています。
ソース コードは、https://github.com/Jiaxin-Ye/TIM-Net_SER で入手できます。

要約(オリジナル)

Speech emotion recognition (SER) plays a vital role in improving the interactions between humans and machines by inferring human emotion and affective states from speech signals. Whereas recent works primarily focus on mining spatiotemporal information from hand-crafted features, we explore how to model the temporal patterns of speech emotions from dynamic temporal scales. Towards that goal, we introduce a novel temporal emotional modeling approach for SER, termed Temporal-aware bI-direction Multi-scale Network (TIM-Net), which learns multi-scale contextual affective representations from various time scales. Specifically, TIM-Net first employs temporal-aware blocks to learn temporal affective representation, then integrates complementary information from the past and the future to enrich contextual representations, and finally, fuses multiple time scale features for better adaptation to the emotional variation. Extensive experimental results on six benchmark SER datasets demonstrate the superior performance of TIM-Net, gaining 2.34% and 2.61% improvements of the average UAR and WAR over the second-best on each corpus. The source code is available at https://github.com/Jiaxin-Ye/TIM-Net_SER.

arxiv情報

著者 Jiaxin Ye,Xin-cheng Wen,Yujie Wei,Yong Xu,Kunhong Liu,Hongming Shan
発行日 2023-03-10 04:11:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク