要約
自然主義的条件における音声感情認識(SER)は、音声処理コミュニティにとって重要な課題です。
課題には、アノテーター間のラベル付けと不均衡なデータ分布の不一致が含まれます。
このペーパーでは、自然主義的条件の課題(IS25-SERチャレンジ)における感情認識で優れた(トップ1)パフォーマンスを達成する再現性のあるフレームワークを紹介します。これは、MSPポッドキャストデータセットで評価されています。
私たちのシステムは、マルチモーダル学習、マルチタスク学習、不均衡なデータ処理を通じて、前述の課題に取り組むように設計されています。
具体的には、私たちの最良のシステムは、テキストの埋め込みを追加し、性別を予測し、トレーニングセットに「その他」(o)および「 ‘no artion」(x)サンプルを含めることでトレーニングされます。
私たちのシステムの結果は、IS25-SERチャレンジで1位と2位の両方を確保し、シンプルな2つのシステムアンサンブルによってトップパフォーマンスが達成されました。
要約(オリジナル)
Speech emotion recognition (SER) in naturalistic conditions presents a significant challenge for the speech processing community. Challenges include disagreement in labeling among annotators and imbalanced data distributions. This paper presents a reproducible framework that achieves superior (top 1) performance in the Emotion Recognition in Naturalistic Conditions Challenge (IS25-SER Challenge) – Task 2, evaluated on the MSP-Podcast dataset. Our system is designed to tackle the aforementioned challenges through multimodal learning, multi-task learning, and imbalanced data handling. Specifically, our best system is trained by adding text embeddings, predicting gender, and including “Other” (O) and “No Agreement” (X) samples in the training set. Our system’s results secured both first and second places in the IS25-SER Challenge, and the top performance was achieved by a simple two-system ensemble.
arxiv情報
著者 | Thanathai Lertpetchpun,Tiantian Feng,Dani Byrd,Shrikanth Narayanan |
発行日 | 2025-06-12 17:38:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google