要約
この研究では、抽象的な視覚芸術によって引き起こされる感情を認識する際の、事前学習済みマルチモーダル モデル CLIP の認知的妥当性を調査します。
私たちは、人間のアノテーターによって提供された、関連付けられた感情ラベルとこれらのラベルのテキスト根拠を含む画像で構成されるデータセットを使用します。
私たちは理論的根拠の言語分析、画像と理論的根拠のゼロショット感情分類を実行し、類似性に基づく感情の予測を適用し、色と感情の関連性を調査します。
抽象的な画像や理論的根拠に対する感情の認識精度が比較的低いものの、ベースラインを上回っていることは、CLIP が人間の認知プロセスとうまく連携していない方法で感情の複雑さを解読していることを示唆しています。
さらに、画像における色と感情の相互作用と理論的根拠を探ります。
怒りに関連する赤など、予想される色と感情の関連性は、人間と CLIP の両方によって感情ラベルが注釈付けされた画像とテキストで特定され、後者はさらに強い相互作用を示します。
私たちの結果は、画像の特徴と感情を結び付ける際の人間の処理と機械の処理の差異を浮き彫りにしています。
要約(オリジナル)
This study investigates the cognitive plausibility of a pretrained multimodal model, CLIP, in recognizing emotions evoked by abstract visual art. We employ a dataset comprising images with associated emotion labels and textual rationales of these labels provided by human annotators. We perform linguistic analyses of rationales, zero-shot emotion classification of images and rationales, apply similarity-based prediction of emotion, and investigate color-emotion associations. The relatively low, yet above baseline, accuracy in recognizing emotion for abstract images and rationales suggests that CLIP decodes emotional complexities in a manner not well aligned with human cognitive processes. Furthermore, we explore color-emotion interactions in images and rationales. Expected color-emotion associations, such as red relating to anger, are identified in images and texts annotated with emotion labels by both humans and CLIP, with the latter showing even stronger interactions. Our results highlight the disparity between human processing and machine processing when connecting image features and emotions.
arxiv情報
著者 | Hanna-Sophia Widhoelzl,Ece Takmaz |
発行日 | 2024-05-10 08:45:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google