要約
大規模視覚言語モデル (LVLM) は、最近、マルチモーダル視覚言語学習において主要な役割を果たしています。
大きな成功にもかかわらず、その有効性についての総合的な評価が欠けています。
このペーパーでは、LVLM 評価ハブ (LVLM-eHub) を構築することによる、公開されている大規模なマルチモーダル モデルの包括的な評価について説明します。
当社の LVLM-eHub は、InstructBLIP や MiniGPT-4 などの 8 ドルの代表的な LVLM で構成されており、定量的な能力評価とオンライン アリーナ プラットフォームによって徹底的に評価されます。
前者は、47ドルの標準的なテキスト関連のビジュアルベンチマークで、視覚的な質問応答や具体化された人工知能などのLVLMのマルチモーダル機能の6ドルのカテゴリを評価し、後者は、オープンワールドの質問応答シナリオにおけるLVLMのユーザーレベルの評価を提供します。
。
この研究では、いくつかの革新的な発見が明らかになりました。
まず、InstructBLIP などの大量のドメイン内データを使用して命令調整された LVLM は、多くの既存タスクを大幅にオーバーフィットし、オープンワールド シナリオでは一般化が不十分です。
第 2 に、中程度の命令追従データを持つ命令調整 LVLM は、オブジェクトの幻覚の問題を引き起こす可能性があります (つまり、説明内のターゲット画像と矛盾するオブジェクトが生成される)。
画像キャプション用の CIDEr などの現在の評価指標が無効になるか、誤った回答が生成されます。
第三に、マルチターン推論評価フレームワークを採用することで、物体の幻覚の問題を軽減でき、LVLM 評価のための効果的なパイプラインの開発に光を当てることができます。
この発見は、ゼロショットマルチモーダル技術の強化を目的とした革新的な戦略の構想と評価のための基礎的な枠組みを提供します。
LVLM-eHub は https://github.com/OpenGVLab/Multi-Modality-Arena で利用可能になります。
要約(オリジナル)
Large Vision-Language Models (LVLMs) have recently played a dominant role in multimodal vision-language learning. Despite the great success, it lacks a holistic evaluation of their efficacy. This paper presents a comprehensive evaluation of publicly available large multimodal models by building a LVLM evaluation Hub (LVLM-eHub). Our LVLM-eHub consists of $8$ representative LVLMs such as InstructBLIP and MiniGPT-4, which are thoroughly evaluated by a quantitative capability evaluation and an online arena platform. The former evaluates $6$ categories of multimodal capabilities of LVLMs such as visual question answering and embodied artificial intelligence on $47$ standard text-related visual benchmarks, while the latter provides the user-level evaluation of LVLMs in an open-world question-answering scenario. The study reveals several innovative findings. First, instruction-tuned LVLM with massive in-domain data such as InstructBLIP heavily overfits many existing tasks, generalizing poorly in the open-world scenario. Second, instruction-tuned LVLM with moderate instruction-following data may result in object hallucination issues (i.e., generate objects that are inconsistent with target images in the descriptions). It either makes the current evaluation metric such as CIDEr for image captioning ineffective or generates wrong answers. Third, employing a multi-turn reasoning evaluation framework can mitigate the issue of object hallucination, shedding light on developing an effective pipeline for LVLM evaluation. The findings provide a foundational framework for the conception and assessment of innovative strategies aimed at enhancing zero-shot multimodal techniques. Our LVLM-eHub will be available at https://github.com/OpenGVLab/Multi-Modality-Arena
arxiv情報
著者 | Peng Xu,Wenqi Shao,Kaipeng Zhang,Peng Gao,Shuo Liu,Meng Lei,Fanqing Meng,Siyuan Huang,Yu Qiao,Ping Luo |
発行日 | 2023-06-15 16:39:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google