BRAVE: Broadening the visual encoding of vision-language models

要約

ビジョン言語モデル (VLM) は通常、ビジョン エンコーダで構成されます。
CLIP と、エンコードされた機能を解釈して下流のタスクを解決する言語モデル (LM) です。
目覚ましい進歩にもかかわらず、VLM にはビジョン エンコーダの機能が限られているため、いくつかの欠点があります。
特定の画像の特徴に対する「盲目」、幻覚など。これらの問題に対処するために、私たちは VLM の視覚エンコード機能の拡張を研究しています。
まず、VLM タスクを解決するために、さまざまな誘導バイアスを備えたいくつかのビジョン エンコーダを包括的にベンチマークします。
さまざまなタスクにわたって一貫して最高のパフォーマンスを達成する単一のエンコーディング構成は存在せず、さまざまなバイアスを持つエンコーダーが驚くほど同様にパフォーマンスできることがわかりました。
これを動機として、複数のフリーズされたエンコーダからの特徴を、フリーズされた LM への入力として直接供給できる、より汎用性の高い表現に統合する、BRAVE という名前のメソッドを導入します。
BRAVE は、幅広いキャプションおよび VQA ベンチマークで最先端のパフォーマンスを実現し、前述の VLM の問題を大幅に軽減すると同時に、必要なトレーニング可能なパラメーターの数が既存の方法よりも少なく、より圧縮された表現を実現します。
私たちの結果は、VLM をより広範かつ状況に合わせた視覚的に理解するために、さまざまな視覚的バイアスを組み込む可能性を強調しています。

要約(オリジナル)

Vision-language models (VLMs) are typically composed of a vision encoder, e.g. CLIP, and a language model (LM) that interprets the encoded features to solve downstream tasks. Despite remarkable progress, VLMs are subject to several shortcomings due to the limited capabilities of vision encoders, e.g. ‘blindness’ to certain image features, visual hallucination, etc. To address these issues, we study broadening the visual encoding capabilities of VLMs. We first comprehensively benchmark several vision encoders with different inductive biases for solving VLM tasks. We observe that there is no single encoding configuration that consistently achieves top performance across different tasks, and encoders with different biases can perform surprisingly similarly. Motivated by this, we introduce a method, named BRAVE, that consolidates features from multiple frozen encoders into a more versatile representation that can be directly fed as the input to a frozen LM. BRAVE achieves state-of-the-art performance on a broad range of captioning and VQA benchmarks and significantly reduces the aforementioned issues of VLMs, while requiring a smaller number of trainable parameters than existing methods and having a more compressed representation. Our results highlight the potential of incorporating different visual biases for a more broad and contextualized visual understanding of VLMs.

arxiv情報

著者 Oğuzhan Fatih Kar,Alessio Tonioni,Petra Poklukar,Achin Kulshrestha,Amir Zamir,Federico Tombari
発行日 2024-04-10 17:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク