Exploring Attention Mechanisms for Multimodal Emotion Recognition in an Emergency Call Center Corpus

要約

人間の意思決定を強化する感情検出テクノロジーは、現実世界のアプリケーションにとって重要な研究課題ですが、現実世界の感情データセットは比較的まれで小規模です。
この論文で行われた実験では、フランスの緊急コールセンターで収集された CEMO が使用されています。
音声とテキストに基づいた 2 つの事前トレーニングされたモデルは、音声感情認識用に微調整されました。
事前トレーニングされた Transformer エンコーダーを使用すると、データの限定的で疎な性質が軽減されます。
この論文では、これらのモダリティ固有のモデルのさまざまな融合戦略を検討します。
特に、音声エンコーダとテキスト エンコーダの両方から最も関連性の高い情報を収集するために、クロスアテンション メカニズムの有無にかかわらずフュージョンがテストされました。
我々は、マルチモーダル融合がいずれの単一モダリティに関しても4〜9%の絶対利得をもたらし、対称多頭クロスアテンション機構が後期古典融合アプローチよりも優れたパフォーマンスを発揮することを示す。
私たちの実験はまた、現実の CEMO コーパスでは、音声コンポーネントがテキスト情報よりも感情的な情報をエンコードしていることを示唆しています。

要約(オリジナル)

The emotion detection technology to enhance human decision-making is an important research issue for real-world applications, but real-life emotion datasets are relatively rare and small. The experiments conducted in this paper use the CEMO, which was collected in a French emergency call center. Two pre-trained models based on speech and text were fine-tuned for speech emotion recognition. Using pre-trained Transformer encoders mitigates our data’s limited and sparse nature. This paper explores the different fusion strategies of these modality-specific models. In particular, fusions with and without cross-attention mechanisms were tested to gather the most relevant information from both the speech and text encoders. We show that multimodal fusion brings an absolute gain of 4-9% with respect to either single modality and that the Symmetric multi-headed cross-attention mechanism performed better than late classical fusion approaches. Our experiments also suggest that for the real-life CEMO corpus, the audio component encodes more emotive information than the textual one.

arxiv情報

著者 Théo Deschamps-Berger,Lori Lamel,Laurence Devillers
発行日 2023-06-12 13:43:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク