Temporal Modeling Matters: A Novel Temporal Emotional Modeling Approach for Speech Emotion Recognition

要約

音声感情認識 (SER) は、音声信号から人間の感情や感情状態を推測することにより、人間と機械の間の相互作用を改善する上で重要な役割を果たします。
最近の研究は主に手作りの特徴から時空間情報をマイニングすることに焦点を当てていますが、私たちは動的な時間スケールから音声感情の時間パターンをモデル化する方法を探求しています。
その目標に向けて、我々は、さまざまな時間スケールからマルチスケールの文脈上の感情表現を学習する、Timoral-aware bI-direction Multi-scale Network (TIM-Net) と呼ばれる、SER 用の新しい時間的感情モデリング アプローチを導入します。
具体的には、TIM-Net は最初に時間認識ブロックを使用して時間的な感情表現を学習し、次に過去と未来からの補完的な情報を統合して文脈上の表現を強化し、最後に複数の時間スケールの特徴を融合して感情の変動への適応を改善します。
6 つのベンチマーク SER データセットに関する広範な実験結果は、TIM-Net の優れたパフォーマンスを実証し、各コーパスで 2 番目に優れたものと比較して、平均 UAR と WAR が 2.34% および 2.61% 向上しました。
ソース コードは https://github.com/Jiaxin-Ye/TIM-Net_SER で入手できます。

要約(オリジナル)

Speech emotion recognition (SER) plays a vital role in improving the interactions between humans and machines by inferring human emotion and affective states from speech signals. Whereas recent works primarily focus on mining spatiotemporal information from hand-crafted features, we explore how to model the temporal patterns of speech emotions from dynamic temporal scales. Towards that goal, we introduce a novel temporal emotional modeling approach for SER, termed Temporal-aware bI-direction Multi-scale Network (TIM-Net), which learns multi-scale contextual affective representations from various time scales. Specifically, TIM-Net first employs temporal-aware blocks to learn temporal affective representation, then integrates complementary information from the past and the future to enrich contextual representations, and finally, fuses multiple time scale features for better adaptation to the emotional variation. Extensive experimental results on six benchmark SER datasets demonstrate the superior performance of TIM-Net, gaining 2.34% and 2.61% improvements of the average UAR and WAR over the second-best on each corpus. The source code is available at https://github.com/Jiaxin-Ye/TIM-Net_SER.

arxiv情報

著者 Jiaxin Ye,Xin-cheng Wen,Yujie Wei,Yong Xu,Kunhong Liu,Hongming Shan
発行日 2023-08-14 11:50:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク