Evaluation and Mitigation of Agnosia in Multimodal Large Language Models

要約

マルチモーダル大規模言語モデル (MLLM) はさまざまな視覚言語タスクに広く使用されていますが、観察の 1 つは、視覚入力を誤解したり、単純な場合でもテキストの指示に従わなかったりすることがあり、無関係な応答、間違い、根拠のない主張につながることです。

この観察は、感覚様式を正しく処理して物事(物体、色、関係など)を認識できない失認として知られる神経心理学の現象に類似しています。
私たちの研究では、この同様の概念を「MLLM における失認」の定義に適用しており、私たちの目標は、MLLM におけるそのような失認を包括的に評価し、軽減することです。
神経心理学の診断と治療のプロセスに触発されて、私たちは新しいフレームワークEMMA(多峰性失認の評価と軽減)を提案します。
EMMAでは、MLLMの失認の程度を包括的に評価するために、きめ細かく多様な視覚的な質問応答の例を自動的に作成する評価モジュールを開発します。
また、きめの細かい会話でのマルチモーダルな命令調整を通じて、MLLM の失認を軽減する軽減モジュールも開発します。
私たちのフレームワークの有効性を検証するために、9K のテストサンプルを使用して 7 つの最先端の MLLM における失認を評価および分析します。
その結果、彼らのほとんどがさまざまな側面や程度にわたって失認を示していることが明らかになりました。
さらに、きめの細かい命令セットを開発し、失認を軽減するために MLLM を調整した結果、精度が大幅に向上しました。

要約(オリジナル)

While Multimodal Large Language Models (MLLMs) are widely used for a variety of vision-language tasks, one observation is that they sometimes misinterpret visual inputs or fail to follow textual instructions even in straightforward cases, leading to irrelevant responses, mistakes, and ungrounded claims. This observation is analogous to a phenomenon in neuropsychology known as Agnosia, an inability to correctly process sensory modalities and recognize things (e.g., objects, colors, relations). In our study, we adapt this similar concept to define ‘agnosia in MLLMs’, and our goal is to comprehensively evaluate and mitigate such agnosia in MLLMs. Inspired by the diagnosis and treatment process in neuropsychology, we propose a novel framework EMMA (Evaluation and Mitigation of Multimodal Agnosia). In EMMA, we develop an evaluation module that automatically creates fine-grained and diverse visual question answering examples to assess the extent of agnosia in MLLMs comprehensively. We also develop a mitigation module to reduce agnosia in MLLMs through multimodal instruction tuning on fine-grained conversations. To verify the effectiveness of our framework, we evaluate and analyze agnosia in seven state-of-the-art MLLMs using 9K test samples. The results reveal that most of them exhibit agnosia across various aspects and degrees. We further develop a fine-grained instruction set and tune MLLMs to mitigate agnosia, which led to notable improvement in accuracy.

arxiv情報

著者 Jiaying Lu,Jinmeng Rao,Kezhen Chen,Xiaoyuan Guo,Yawen Zhang,Baochen Sun,Carl Yang,Jie Yang
発行日 2023-09-07 22:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク