Whose Emotion Matters? Speaking Activity Localisation without Prior Knowledge

要約

会話中の感情認識 (ERC) のタスクは、たとえばビデオベースの Multimodal EmotionLines Dataset (MELD) で提供されているように、複数のモダリティを利用できることから恩恵を受けます。
ただし、MELD ビデオからの音響情報と視覚情報の両方を使用する研究アプローチはわずかです。
これには 2 つの理由があります。1 つは、MELD のラベルとビデオの位置合わせにノイズが多く、これらのビデオが感情的な音声データの信頼性の低いソースになってしまうことです。
第 2 に、会話には同じ場面に複数の人が参加する可能性があるため、発話元の位置特定が必要になります。
この論文では、最新のアクティブ話者検出と自動音声認識モデルを使用して、再調整による固定視聴覚情報を備えた MELD (MELD-FAIR) を紹介します。これにより、MELD のビデオを再調整し、96.92% の話者の表情をキャプチャすることができます。
MELD で提供される発話。
自己教師あり音声認識モデルを用いた実験では、再調整された MELD-FAIR ビデオが、MELD データセットで与えられた文字起こしされた発話とより厳密に一致することが示されました。
最後に、再調整された MELD-FAIR ビデオでトレーニングされた会話における感情認識のモデルを考案しました。これは、視覚のみに基づいた ERC の最先端モデルよりも優れています。
これは、発話活動のソースの位置を特定することが、発話話者から顔の表情を抽出するのに実際に効果的であること、および顔がこれまでに最先端のモデルが使用してきた視覚機能よりも有益な視覚的手がかりを提供することを示しています。
MELD-FAIR 再調整データ、再調整手順と感情認識のコードは、https://github.com/knowledgetechnologyuhh/MELD-FAIR で入手できます。

要約(オリジナル)

The task of emotion recognition in conversations (ERC) benefits from the availability of multiple modalities, as provided, for example, in the video-based Multimodal EmotionLines Dataset (MELD). However, only a few research approaches use both acoustic and visual information from the MELD videos. There are two reasons for this: First, label-to-video alignments in MELD are noisy, making those videos an unreliable source of emotional speech data. Second, conversations can involve several people in the same scene, which requires the localisation of the utterance source. In this paper, we introduce MELD with Fixed Audiovisual Information via Realignment (MELD-FAIR) by using recent active speaker detection and automatic speech recognition models, we are able to realign the videos of MELD and capture the facial expressions from speakers in 96.92% of the utterances provided in MELD. Experiments with a self-supervised voice recognition model indicate that the realigned MELD-FAIR videos more closely match the transcribed utterances given in the MELD dataset. Finally, we devise a model for emotion recognition in conversations trained on the realigned MELD-FAIR videos, which outperforms state-of-the-art models for ERC based on vision alone. This indicates that localising the source of speaking activities is indeed effective for extracting facial expressions from the uttering speakers and that faces provide more informative visual cues than the visual features state-of-the-art models have been using so far. The MELD-FAIR realignment data, and the code of the realignment procedure and of the emotional recognition, are available at https://github.com/knowledgetechnologyuhh/MELD-FAIR.

arxiv情報

著者 Hugo Carneiro,Cornelius Weber,Stefan Wermter
発行日 2023-08-15 17:33:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T20, cs.CV, cs.LG, cs.NE, cs.SD, eess.AS, I.2.0 パーマリンク