How you feelin’? Learning Emotions and Mental States in Movie Scenes

要約

タイトル:「How you feelin’? Learning Emotions and Mental States in Movie Scenes」
要約:映画のストーリーアナリシスには、登場人物の感情やメンタルステートを理解する必要がある。この目標に向けて、映画シーンのレベルおよび各キャラクターに対して多様なラベルセットを予測する感情理解を、我々は提案する。我々は、映画グラフデータセットからの注釈を活用し、古典的な感情(例えば、嬉しい、怒っている)や他のメンタルステート(例えば、正直、助けになる)を予測するためのEmoTxと呼ばれる、複数のアーキテクチャを提案する。ビデオ、複数のキャラクター、およびダイアログ発話を摂取して、共同予測を行う。最も頻繁に発生する10と25のラベル、および181のラベルを26にクラスタリングするマッピングで実験を行い、EmoTxの有効性を示す。EmoTxの自己注目スコアを分析すると、表現的な感情はしばしばキャラクタートークンに注目し、他のメンタルステートはビデオやダイアログの手掛かりに依存することがわかる。

– 映画のストーリーアナリシスには、登場人物の感情やメンタルステートを理解する必要がある。
– EmoTxは、映画シーンのレベルおよび各キャラクターに対して多様なラベルセットを予測する感情理解を提案する。
– EmoTxは、ビデオ、複数のキャラクター、およびダイアログ発話を摂取して、共同予測を行います。
– 最も頻繁に発生する10と25のラベル、および181のラベルを26にクラスタリングするマッピングで実験を行い、EmoTxの有効性を示す。
– EmoTxの自己注目スコアを分析すると、表現的な感情はしばしばキャラクタートークンに注目し、他のメンタルステートはビデオやダイアログの手掛かりに依存することがわかる。

要約(オリジナル)

Movie story analysis requires understanding characters’ emotions and mental states. Towards this goal, we formulate emotion understanding as predicting a diverse and multi-label set of emotions at the level of a movie scene and for each character. We propose EmoTx, a multimodal Transformer-based architecture that ingests videos, multiple characters, and dialog utterances to make joint predictions. By leveraging annotations from the MovieGraphs dataset, we aim to predict classic emotions (e.g. happy, angry) and other mental states (e.g. honest, helpful). We conduct experiments on the most frequently occurring 10 and 25 labels, and a mapping that clusters 181 labels to 26. Ablation studies and comparison against adapted state-of-the-art emotion recognition approaches shows the effectiveness of EmoTx. Analyzing EmoTx’s self-attention scores reveals that expressive emotions often look at character tokens while other mental states rely on video and dialog cues.

arxiv情報

著者 Dhruv Srivastava,Aditya Kumar Singh,Makarand Tapaswi
発行日 2023-04-12 06:31:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク