Deep Implicit Distribution Alignment Networks for Cross-Corpus Speech Emotion Recognition

要約

この論文では、コーパス間の音声感情認識 (SER) 問題に対処するために、深層暗黙的分布アラインメント ネットワーク (DIDAN) と呼ばれる新しいディープ トランスファー ラーニング手法を提案します。
信号は異なるコーパスから来ています。
具体的には、DIDAN は最初に、提案された DIDAN が感情識別能力を所有できるように、ソース音声スペクトルを感情ラベルに直接回帰するために、一連の畳み込み層と完全に接続された層で構成される単純な深回帰ネットワークを採用します。
次に、そのような能力は、コーパスの分散に関係なく、暗黙の分布アライメント(IDA)と呼ばれる適切に設計された正則化項に頼ることによって、ターゲット音声サンプルにも適用できるように転送されます。
広く使用されている最大平均不一致 (MMD) とそのバリアントとは異なり、提案された IDA はサンプル再構成のアイデアを吸収して分布ギャップを暗黙的に調整します。これにより、DIDAN は音声スペクトルから感情識別機能とコーパス不変機能の両方を学習できます。
提案された DIDAN を評価するために、広く使用されている音声感情コーパスに対する大規模なクロスコーパス SER 実験が実行されます。
実験結果は、提案された DIDAN が、クロスコーパス SER タスクに対処する際に、多くの最近の最先端の方法よりも優れていることを示しています。

要約(オリジナル)

In this paper, we propose a novel deep transfer learning method called deep implicit distribution alignment networks (DIDAN) to deal with cross-corpus speech emotion recognition (SER) problem, in which the labeled training (source) and unlabeled testing (target) speech signals come from different corpora. Specifically, DIDAN first adopts a simple deep regression network consisting of a set of convolutional and fully connected layers to directly regress the source speech spectrums into the emotional labels such that the proposed DIDAN can own the emotion discriminative ability. Then, such ability is transferred to be also applicable to the target speech samples regardless of corpus variance by resorting to a well-designed regularization term called implicit distribution alignment (IDA). Unlike widely-used maximum mean discrepancy (MMD) and its variants, the proposed IDA absorbs the idea of sample reconstruction to implicitly align the distribution gap, which enables DIDAN to learn both emotion discriminative and corpus invariant features from speech spectrums. To evaluate the proposed DIDAN, extensive cross-corpus SER experiments on widely-used speech emotion corpora are carried out. Experimental results show that the proposed DIDAN can outperform lots of recent state-of-the-art methods in coping with the cross-corpus SER tasks.

arxiv情報

著者 Yan Zhao,Jincen Wang,Yuan Zong,Wenming Zheng,Hailun Lian,Li Zhao
発行日 2023-02-17 14:51:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク