Language Grounded QFormer for Efficient Vision Language Understanding

要約

大規模な事前トレーニングと命令調整は、幅広いコンピテンシーを備えた汎用言語モデルのトレーニングに成功しています。
ただし、視覚入力の分布の多様性のため、汎用の視覚言語モデルに拡張することは困難です。
最近の研究では、凍結されたモダリティをブリッジするために BLIP-2 モデルで提案されている Query Transformer (QFormer) アプローチからインスピレーションを得て、視覚言語命令のチューニングを検討しています。
ただし、これらのアプローチは、最終的な微調整の前に表現学習のための大規模なマルチモーダル事前トレーニングに大きく依存しており、膨大な計算オーバーヘッド、貧弱なスケーリング、および限られたアクセシビリティが発生します。
そのために、私たちは QFormer ベースの視覚言語調整のためのより効率的な方法を提案し、視覚言語事前トレーニングの効率を向上させる上で既存のベースラインと比較して私たちの戦略の有効性を実証します。

要約(オリジナル)

Large-scale pretraining and instruction tuning have been successful for training general-purpose language models with broad competencies. However, extending to general-purpose vision-language models is challenging due to the distributional diversity in visual inputs. A recent line of work explores vision-language instruction tuning, taking inspiration from the Query Transformer (QFormer) approach proposed in BLIP-2 models for bridging frozen modalities. However, these approaches rely heavily on large-scale multi-modal pretraining for representation learning before eventual finetuning, incurring a huge computational overhead, poor scaling, and limited accessibility. To that end, we propose a more efficient method for QFormer-based vision-language alignment and demonstrate the effectiveness of our strategy compared to existing baselines in improving the efficiency of vision-language pretraining.

arxiv情報

著者 Moulik Choraria,Nitesh Sekhar,Yue Wu,Xu Zhang,Prateek Singhal,Lav R. Varshney
発行日 2023-11-13 16:30:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク