Going Beyond Nouns With Vision & Language Models Using Synthetic Data

要約

大規模な事前トレーニング済みの視覚と言語 (VL) モデルは、多くのアプリケーションで顕著なパフォーマンスを示しており、サポートされているクラスの固定セットを、(ほぼ任意の) 自然言語プロンプトに対するゼロショットのオープン語彙推論に置き換えることができます。
しかし、最近の研究により、これらのモデルの根本的な弱点が明らかになりました。
たとえば、非目的語 (属性、動作、関係、状態など) の意味など、「名詞を超えた」視覚言語概念 (VLC) を理解することの難しさ、または次のような構成推論を実行することの難しさなどです。
文中の単語の順序の重要性を理解することとして。
この研究では、ゼロショット機能を損なうことなく、これらのモデルにそのような欠点を克服するように教えるために、純粋な合成データをどの程度活用できるかを調査します。
私たちは、100 万規模の合成データセットとデータ生成コードベースである Synthetic Visual Concepts (SyViC) に貢献し、VLC の理解と VL モデルの構成推論を向上させるために追加の適切なデータを生成できるようにします。
さらに、これらの改善を達成するために SyViC を効果的に活用するための一般的な VL 微調整戦略を提案します。
VL-Checklist、Winoground、ARO ベンチマークに関する広範な実験とアブレーションにより、強力な事前トレーニング済み VL モデルを合成データで適応させることが可能であり、VLC の理解を大幅に強化できることが実証されました (例: ARO では 9.9%、VL-Checklist では 4.3%)
) ゼロショット精度の低下は 1% 未満です。

要約(オリジナル)

Large-scale pre-trained Vision & Language (VL) models have shown remarkable performance in many applications, enabling replacing a fixed set of supported classes with zero-shot open vocabulary reasoning over (almost arbitrary) natural language prompts. However, recent works have uncovered a fundamental weakness of these models. For example, their difficulty to understand Visual Language Concepts (VLC) that go ‘beyond nouns’ such as the meaning of non-object words (e.g., attributes, actions, relations, states, etc.), or difficulty in performing compositional reasoning such as understanding the significance of the order of the words in a sentence. In this work, we investigate to which extent purely synthetic data could be leveraged to teach these models to overcome such shortcomings without compromising their zero-shot capabilities. We contribute Synthetic Visual Concepts (SyViC) – a million-scale synthetic dataset and data generation codebase allowing to generate additional suitable data to improve VLC understanding and compositional reasoning of VL models. Additionally, we propose a general VL finetuning strategy for effectively leveraging SyViC towards achieving these improvements. Our extensive experiments and ablations on VL-Checklist, Winoground, and ARO benchmarks demonstrate that it is possible to adapt strong pre-trained VL models with synthetic data significantly enhancing their VLC understanding (e.g. by 9.9% on ARO and 4.3% on VL-Checklist) with under 1% drop in their zero-shot accuracy.

arxiv情報

著者 Paola Cascante-Bonilla,Khaled Shehada,James Seale Smith,Sivan Doveh,Donghyun Kim,Rameswar Panda,Gül Varol,Aude Oliva,Vicente Ordonez,Rogerio Feris,Leonid Karlinsky
発行日 2023-08-30 17:46:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク