VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning

要約

文脈の中で感情を認識するには、周囲のシーンからの文脈上の手がかりを考慮して、個人の見かけの感情を識別することが含まれます。
このタスクに対するこれまでのアプローチには、明示的なシーン エンコーディング アーキテクチャの設計や、キャプションなどの外部シーン関連情報の組み込みが含まれていました。
ただし、これらの方法では、限られたコンテキスト情報を利用したり、複雑なトレーニング パイプラインに依存したりすることがよくあります。
この研究では、視覚および大言語モデル (VLLM) の画期的な機能を活用して、2 段階のアプローチでトレーニング プロセスを複雑にすることなく、コンテキスト内の感情分類を強化します。
最初の段階では、視覚的コンテキストに関連した被験者の見かけの感情の自然言語での説明を VLLM に生成するよう促すことを提案します。
第 2 段階では、説明はコンテキスト情報として使用され、画像入力とともに、最終的な分類タスクの前に、テキストと視覚的な特徴を融合するトランスフォーマー ベースのアーキテクチャをトレーニングするために使用されます。
私たちの実験結果は、テキストと画像の特徴が相補的な情報を持ち、私たちの融合アーキテクチャが複雑なトレーニング方法を必要とせずに個々のモダリティよりも大幅に優れていることを示しています。
EMOTIC、CAER-S、BoLD という 3 つの異なるデータセットでアプローチを評価し、より複雑なアプローチと比較して、すべてのデータセットとメトリクスにわたって最先端または同等の精度を達成しています。
コードは github で公開されます: https://github.com/NickyFot/EmoCommonSense.git

要約(オリジナル)

Recognising emotions in context involves identifying the apparent emotions of an individual, taking into account contextual cues from the surrounding scene. Previous approaches to this task have involved the design of explicit scene-encoding architectures or the incorporation of external scene-related information, such as captions. However, these methods often utilise limited contextual information or rely on intricate training pipelines. In this work, we leverage the groundbreaking capabilities of Vision-and-Large-Language Models (VLLMs) to enhance in-context emotion classification without introducing complexity to the training process in a two-stage approach. In the first stage, we propose prompting VLLMs to generate descriptions in natural language of the subject’s apparent emotion relative to the visual context. In the second stage, the descriptions are used as contextual information and, along with the image input, are used to train a transformer-based architecture that fuses text and visual features before the final classification task. Our experimental results show that the text and image features have complementary information, and our fused architecture significantly outperforms the individual modalities without any complex training methods. We evaluate our approach on three different datasets, namely, EMOTIC, CAER-S, and BoLD, and achieve state-of-the-art or comparable accuracy across all datasets and metrics compared to much more complex approaches. The code will be made publicly available on github: https://github.com/NickyFot/EmoCommonSense.git

arxiv情報

著者 Alexandros Xenos,Niki Maria Foteinopoulou,Ioanna Ntinou,Ioannis Patras,Georgios Tzimiropoulos
発行日 2024-04-10 15:09:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC パーマリンク