要約
感情の理解は、重要でありながらやりがいのある仕事です。
マルチモーダル大手言語モデル(MLLM)の最近の進歩により、この分野での機能が大幅に向上しました。
しかし、MLLMはしばしば幻覚に苦しみ、無関係または無意味な含有量を生成します。
私たちの知る限り、この問題の重要性にもかかわらず、MLLMの感情関連の幻覚を評価するための献身的な努力はありませんでした。
この作業では、MLLMの感情幻覚を検出して分析するための最初のベンチマークであるEmotionHallucerを紹介します。
感情の理解が生物学と社会学習の相互作用に由来する人間とは異なり、MLLMはデータ駆動型の学習のみに依存し、生来の感情的本能を欠いています。
幸いなことに、感情心理学は、人間の感情に関する知識の強固な基盤を提供します。
これに基づいて、感情心理学の知識と現実世界のマルチモーダル認識という2つの次元からの感情幻覚を評価します。
堅牢な評価をサポートするために、慎重に作成された基本的および幻覚ペアを使用して、MLLMの感情幻覚傾向を評価する敵対的なバイナリ質問(QA)フレームワークを利用します。
感情ホルーサーで38のLLMとMLLMを評価することにより、次のことが明らかになります。i)ほとんどの現在のモデルは、感情幻覚に関する実質的な問題を示します。
ii)クローズドソースモデルは、感情幻覚の検出においてオープンソースのモデルを上回り、推論能力が追加の利点を提供します。
iii)既存のモデルは、マルチモーダル感情知覚よりも感情心理学の知識の方が優れています。
副産物として、これらの発見は、PEP-MEKフレームワークを提案するように促します。これにより、選択されたモデル全体で感情幻覚検出が9.90%の平均改善が得られます。
リソースはhttps://github.com/xxtars/emotionhallucerで入手できます。
要約(オリジナル)
Emotion understanding is a critical yet challenging task. Recent advances in Multimodal Large Language Models (MLLMs) have significantly enhanced their capabilities in this area. However, MLLMs often suffer from hallucinations, generating irrelevant or nonsensical content. To the best of our knowledge, despite the importance of this issue, there has been no dedicated effort to evaluate emotion-related hallucinations in MLLMs. In this work, we introduce EmotionHallucer, the first benchmark for detecting and analyzing emotion hallucinations in MLLMs. Unlike humans, whose emotion understanding stems from the interplay of biology and social learning, MLLMs rely solely on data-driven learning and lack innate emotional instincts. Fortunately, emotion psychology provides a solid foundation of knowledge about human emotions. Building on this, we assess emotion hallucinations from two dimensions: emotion psychology knowledge and real-world multimodal perception. To support robust evaluation, we utilize an adversarial binary question-answer (QA) framework, which employs carefully crafted basic and hallucinated pairs to assess the emotion hallucination tendencies of MLLMs. By evaluating 38 LLMs and MLLMs on EmotionHallucer, we reveal that: i) most current models exhibit substantial issues with emotion hallucinations; ii) closed-source models outperform open-source ones in detecting emotion hallucinations, and reasoning capability provides additional advantages; iii) existing models perform better in emotion psychology knowledge than in multimodal emotion perception. As a byproduct, these findings inspire us to propose the PEP-MEK framework, which yields an average improvement of 9.90% in emotion hallucination detection across selected models. Resources will be available at https://github.com/xxtars/EmotionHallucer.
arxiv情報
著者 | Bohao Xing,Xin Liu,Guoying Zhao,Chengyu Liu,Xiaolan Fu,Heikki Kälviäinen |
発行日 | 2025-05-16 16:14:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google