Going Beyond Nouns With Vision & Language Models Using Synthetic Data

要約

大規模な事前トレーニング済みのビジョン & 言語 (VL) モデルは、多くのアプリケーションで驚くべきパフォーマンスを示しており、サポートされているクラスの固定セットを、(ほぼ任意の) 自然言語プロンプトに対するゼロショット オープン ボキャブラリ推論に置き換えることができます。
ただし、最近の研究では、これらのモデルの根本的な弱点が明らかになりました。
たとえば、オブジェクト以外の単語 (たとえば、属性、アクション、関係、状態など) の意味など、「名詞を超える」視覚言語概念 (VLC) を理解することの難しさ、またはそのような合成推論を実行することの難しさなどです。
文中の単語の順序の意味を理解するように。
この作業では、ゼロショット機能を損なうことなく、これらのモデルにそのような欠点を克服するように教えるために、純粋に合成データをどの程度活用できるかを調査します。
当社は、Synthetic Visual Concepts (SyViC) に貢献しています。これは、VLC の理解と VL モデルの構成論的推論を改善するための追加の適切なデータを生成できる、100 万規模の合成データセットおよびデータ生成コードベースです。
さらに、これらの改善を達成するために SyViC を効果的に活用するための一般的な VL 微調整戦略を提案します。
VL-Checklist、Winoground、および ARO ベンチマークに関する広範な実験とアブレーションは、VLC の理解を大幅に向上させる合成データを使用して、強力な事前トレーニング済み VL モデルを適応させることが可能であることを示しています (たとえば、ARO で 9.9%、VL-Checklist で 4.3%)。
) ゼロショット精度の低下が 1% 未満です。

要約(オリジナル)

Large-scale pre-trained Vision & Language (VL) models have shown remarkable performance in many applications, enabling replacing a fixed set of supported classes with zero-shot open vocabulary reasoning over (almost arbitrary) natural language prompts. However, recent works have uncovered a fundamental weakness of these models. For example, their difficulty to understand Visual Language Concepts (VLC) that go ‘beyond nouns’ such as the meaning of non-object words (e.g., attributes, actions, relations, states, etc.), or difficulty in performing compositional reasoning such as understanding the significance of the order of the words in a sentence. In this work, we investigate to which extent purely synthetic data could be leveraged to teach these models to overcome such shortcomings without compromising their zero-shot capabilities. We contribute Synthetic Visual Concepts (SyViC) – a million-scale synthetic dataset and data generation codebase allowing to generate additional suitable data to improve VLC understanding and compositional reasoning of VL models. Additionally, we propose a general VL finetuning strategy for effectively leveraging SyViC towards achieving these improvements. Our extensive experiments and ablations on VL-Checklist, Winoground, and ARO benchmarks demonstrate that it is possible to adapt strong pre-trained VL models with synthetic data significantly enhancing their VLC understanding (e.g. by 9.9% on ARO and 4.3% on VL-Checklist) with under 1% drop in their zero-shot accuracy.

arxiv情報

著者 Paola Cascante-Bonilla,Khaled Shehada,James Seale Smith,Sivan Doveh,Donghyun Kim,Rameswar Panda,Gül Varol,Aude Oliva,Vicente Ordonez,Rogerio Feris,Leonid Karlinsky
発行日 2023-03-30 17:57:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク