InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

要約

タイトル: InstructBLIP: Instruction Tuningにより汎用的なVision-Languageモデルを目指して
要約:
– Pre-trainingとInstruction Tuningパイプラインによって駆動された、様々な言語領域のタスクを解決できる汎用的な言語モデルが登場した。
– しかし、追加の視覚的入力によって導入されるタスクの不一致性の増加により、汎用的なVision-Languageモデルを構築することは課題である。
– Vision-Language Pre-trainingは広く研究されているが、Instruction Tuningに関する研究は比較的探求されていない。
– 本論文では、Pre-trained BLIP-2モデルに基づくVision-Language Instruction Tuningに関する体系的で包括的な研究を実施した。
– 26の公開データセットを取得し、Instruction Tuningフォーマットに変換して、Held-in Instruction TuningとHeld-out Zero-Shot Evaluationの2つのクラスターに分類した。
– さらに、Instruction-aware Visual Feature Extractionを導入し、与えられた指示に合わせて情報を抽出するようにモデルが調整された特徴の抽出を可能にする重要な方法を紹介した。
– InstructBLIPモデルは、全13のHeld-out Datasetsで最新のZero-Shot Performanceを実現し、BLIP-2とより大きなFlamingoを大幅に上回っている。また、個々のDownstream TaskでFine-tunedされた場合にも最先端のパフォーマンスを発揮し(ScienceQA IMGで90.7%の精度)、最新のマルチモーダルモデルよりもInstructBLIPの優位性を定性的に証明した。
– 全てのInstructBLIPモデルは、https://github.com/salesforce/LAVIS/tree/main/projects/instructblipでオープンソース化されている。

要約(オリジナル)

General-purpose language models that can solve various language-domain tasks have emerged driven by the pre-training and instruction-tuning pipeline. However, building general-purpose vision-language models is challenging due to the increased task discrepancy introduced by the additional visual input. Although vision-language pre-training has been widely studied, vision-language instruction tuning remains relatively less explored. In this paper, we conduct a systematic and comprehensive study on vision-language instruction tuning based on the pre-trained BLIP-2 models. We gather a wide variety of 26 publicly available datasets, transform them into instruction tuning format and categorize them into two clusters for held-in instruction tuning and held-out zero-shot evaluation. Additionally, we introduce instruction-aware visual feature extraction, a crucial method that enables the model to extract informative features tailored to the given instruction. The resulting InstructBLIP models achieve state-of-the-art zero-shot performance across all 13 held-out datasets, substantially outperforming BLIP-2 and the larger Flamingo. Our models also lead to state-of-the-art performance when finetuned on individual downstream tasks (e.g., 90.7% accuracy on ScienceQA IMG). Furthermore, we qualitatively demonstrate the advantages of InstructBLIP over concurrent multimodal models. All InstructBLIP models have been open-sourced at https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.

arxiv情報

著者 Wenliang Dai,Junnan Li,Dongxu Li,Anthony Meng Huat Tiong,Junqi Zhao,Weisheng Wang,Boyang Li,Pascale Fung,Steven Hoi
発行日 2023-05-11 00:38:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク