要約
既存の視覚的命令調整方法は通常、テキスト記述を含む大規模な言語モデルを生成して、命令に従うデータを生成します。
有望なパフォーマンスが達成されているにもかかわらず、これらの説明は画像の注釈から派生しており、多くの場合、粒度が粗くなっています。
さらに、視覚的なコンテキスト全体を観察しないと、指示が視覚的な内容と矛盾することさえあるかもしれません。
この課題に対処するために、きめ細かいビジュアル命令データセット LVIS-Instruct4V を導入します。これには、LVIS からの画像を使用して強力な GPT-4V をプロンプトすることによって生成された、視覚的に調整されたコンテキスト認識型の 220K の命令が含まれています。
実験的な検証とケーススタディを通じて、高品質の視覚的指導データが、最先端の大規模マルチモーダル モデルである LLaVA-1.5 のパフォーマンスを、広範囲のベンチマークにわたって明確なマージンで向上させることができることを実証します。
特に、LLaVA-Instruct を LVIS-Instruct4V に置き換えるだけで、LLaVA$^w$ (76.7 vs 70.7) や MM-Vet (40.2 vs 35.4) など、最も困難な LMM ベンチマークで LLaVA よりも良い結果が得られます。
。
データとモデルは https://github.com/X2FD/LVIS-INSTRUCT4V でリリースされています。
要約(オリジナル)
Existing visual instruction tuning methods typically prompt large language models with textual descriptions to generate instruction-following data. Despite the promising performance achieved, these descriptions are derived from image annotations, which are oftentimes coarse-grained. Furthermore, the instructions might even contradict the visual content without observing the entire visual context. To address this challenge, we introduce a fine-grained visual instruction dataset, LVIS-Instruct4V, which contains 220K visually aligned and context-aware instructions produced by prompting the powerful GPT-4V with images from LVIS. Through experimental validation and case studies, we demonstrate that high-quality visual instructional data could improve the performance of LLaVA-1.5, a state-of-the-art large multimodal model, across a wide spectrum of benchmarks by clear margins. Notably, by simply replacing the LLaVA-Instruct with our LVIS-Instruct4V, we achieve better results than LLaVA on most challenging LMM benchmarks, e.g., LLaVA$^w$ (76.7 vs. 70.7) and MM-Vet (40.2 vs. 35.4). We release our data and model at https://github.com/X2FD/LVIS-INSTRUCT4V.
arxiv情報
著者 | Junke Wang,Lingchen Meng,Zejia Weng,Bo He,Zuxuan Wu,Yu-Gang Jiang |
発行日 | 2023-11-13 18:59:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google