Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models

要約

命令調整された Large Vision-Language Model (LVLM) の最近の進歩により、高レベルの画像に基づいた説明を簡単に生成する機能がモデルに組み込まれました。
このような機能は、大規模言語モデル (LLM) に含まれる豊富な世界知識に主に起因していますが、私たちの研究では、6 つの異なるベンチマーク設定にわたるきめ細かい視覚的分類 (FGVC) における欠点が明らかになりました。
LLaVa-1.5、InstructBLIP、GPT-4V などの最新の LVLM は、分類パフォーマンスの点で大幅に低下するだけでなく、たとえば、LLaVA-1.5 のスタンフォード犬の EM の平均値が 65.58 低下するだけでなく、
全体的な画像レベルの説明を生成する機能にもかかわらず、入力画像内に現れる概念に基づいて詳細な属性を含む正確な説明を生成します。
詳細な分析により、命令調整型 LVLM はモダリティ ギャップを示し、同じ概念に対応するテキスト入力と視覚入力が与えられたときに不一致が示され、画像モダリティが LLM 内の豊富なパラメトリック知識を活用できなくなることが示されました。
この方向でのコミュニティの取り組みを促進する取り組みとして、LVLM のきめ細かい視覚的理解能力を評価し、説明可能性を大幅に向上させる基盤を確立することを目的とした、複数の粒度の属性中心の評価ベンチマークである Finer を提案します。

要約(オリジナル)

Recent advances in instruction-tuned Large Vision-Language Models (LVLMs) have imbued the models with the ability to generate high-level, image-grounded explanations with ease. While such capability is largely attributed to the rich world knowledge contained within the Large Language Models (LLMs), our work reveals their shortcomings in fine-grained visual categorization (FGVC) across six different benchmark settings. Most recent state-of-the-art LVLMs like LLaVa-1.5, InstructBLIP and GPT-4V not only severely deteriorate in terms of classification performance, e.g., average drop of 65.58 in EM for Stanford Dogs for LLaVA-1.5, but also struggle to generate an accurate explanation with detailed attributes based on the concept that appears within an input image despite their capability to generate holistic image-level descriptions. In-depth analyses show that instruction-tuned LVLMs exhibit modality gap, showing discrepancy when given textual and visual inputs that correspond to the same concept, preventing the image modality from leveraging the rich parametric knowledge within the LLMs. In an effort to further the community’s endeavor in this direction, we propose a multiple granularity attribute-centric evaluation benchmark, Finer, which aims to establish a ground to evaluate LVLMs’ fine-grained visual comprehension ability and provide significantly improved explainability.

arxiv情報

著者 Jeonghwan Kim,Heng Ji
発行日 2024-02-26 05:43:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク