要約
単一言語での音声感情認識 (SER) のパフォーマンスは、深層学習技術の使用のおかげで、ここ数年で大幅に向上しました。
ただし、言語をまたいだ SER は、2 つの主な要因により、現実のアプリケーションでは依然として課題となっています。1 つ目は、ソース ドメインとターゲット ドメインの分布の間に大きなギャップがあることです。
2 番目の要因は、新しい言語ではラベル付きの発話とは対照的に、ラベルのない発話が主に利用できることです。
前述の側面を考慮して、ターゲットドメイン(つまり、新しい言語)でラベル付きの例がほとんどない場合に、言語を超えた感情認識のための半教師あり学習(SSL)方法を提案します。
私たちの方法はトランスフォーマーに基づいており、ラベルのない発話に対して擬似ラベル付け戦略を利用することで新しいドメインに適応します。
特に、ハードおよびソフト擬似ラベル アプローチの使用が調査されています。
ソース言語と新しい言語の両方で話者に依存しない設定で提案された方法のパフォーマンスを徹底的に評価し、異なる言語系統に属する 5 つの言語にわたってその堅牢性を示します。
実験結果は、重み付けされていない精度が最先端の方法と比較して平均 40% 向上することを示しています。
要約(オリジナル)
Performance in Speech Emotion Recognition (SER) on a single language has increased greatly in the last few years thanks to the use of deep learning techniques. However, cross-lingual SER remains a challenge in real-world applications due to two main factors: the first is the big gap among the source and the target domain distributions; the second factor is the major availability of unlabeled utterances in contrast to the labeled ones for the new language. Taking into account previous aspects, we propose a Semi-Supervised Learning (SSL) method for cross-lingual emotion recognition when only few labeled examples in the target domain (i.e. the new language) are available. Our method is based on a Transformer and it adapts to the new domain by exploiting a pseudo-labeling strategy on the unlabeled utterances. In particular, the use of a hard and soft pseudo-labels approach is investigated. We thoroughly evaluate the performance of the proposed method in a speaker-independent setup on both the source and the new language and show its robustness across five languages belonging to different linguistic strains. The experimental findings indicate that the unweighted accuracy is increased by an average of 40% compared to state-of-the-art methods.
arxiv情報
著者 | Mirko Agarla,Simone Bianco,Luigi Celona,Paolo Napoletano,Alexey Petrovsky,Flavio Piccoli,Raimondo Schettini,Ivan Shanin |
発行日 | 2023-07-17 06:11:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google