VIM: Probing Multimodal Large Language Models for Visual Embedded Instruction Following

要約

マルチモーダル大規模言語モデル (MLLM) の機能に従うビジュアル命令を評価するために設計された新しいフレームワークである VISUAL EMBEDDED INSTRUCTION (VIM) を紹介します。
図 2 に示すように、VIM は視覚的なシーンに指示を埋め込むことで MLLM に挑戦し、指示に従うための強力な視覚的解釈スキルを要求します。
VIM を VQAv2、MME、MM-Vet、RefCOCO シリーズなどのさまざまなベンチマークに適応させ、VIM ベンチを構成し、3 つの異なるインコンテキスト学習設定 (ゼロ ショット、ワン ショット、ペア ショット) にわたって多様な MLLM を調査します。
オープンソースの MLLM と GPT-4V の間にはパフォーマンスに大きな差があることが観察されており、これは視覚的な命令の理解における習熟度が標準に達していないことを意味しています。
私たちの結果は、指示に従ってMLLMの機能を強化するための有望な方向性を強調しています。
私たちは、VIM が最先端技術を進歩させ、この分野のさらなる進歩を促進するための有用な標準として機能することを目指しています。

要約(オリジナル)

We introduce VISUAL EMBEDDED INSTRUCTION (VIM), a new framework designed to evaluate the visual instruction following capability of Multimodal Large Language Models (MLLMs). As illustrated in Figure 2, VIM challenges the MLLMs by embedding the instructions into the visual scenes, demanding strong visual interpretative skills for instruction following. We adapt VIM to various benchmarks, including VQAv2, MME, MM-Vet, and RefCOCO series, compose a VIM bench, and probe diverse MLLMs across three distinct in-context learning settings: Zero Shot, One Shot, and Pair Shot. We observe that there is a significant performance disparity between the open-source MLLMs and GPT-4V, implying that their proficiency in visual instruction comprehension is not up to par. Our results highlight a promising direction for the enhancement of MLLMs capabilities on instruction following. We aim VIM to serve as a useful norm for advancing the state of the art and driving further progress in the field.

arxiv情報

著者 Yujie Lu,Xiujun Li,William Yang Wang,Yejin Choi
発行日 2023-11-29 14:08:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク