Dense and Aligned Captions (DAC) Promote Compositional Reasoning in VL Models

要約

ビジョンと言語 (VL) モデルは、画像とテキストの表現空間を調整するための効果的な方法を提供し、クロスモーダル検索、視覚的な質問応答、キャプションなどの多数のアプリケーションにつながります。
しかし、すべての人気のある VL モデルによって学習された整列された画像テキスト空間は依然としていわゆる「オブジェクトバイアス」に悩まされています。その表現は「名詞の袋」として動作し、属性、関係、および状態がほとんど無視または縮小されています。
テキスト/画像で説明/表示されるオブジェクト。
最近の文献では、これらの「構成的推論」の問題を解決するための素晴らしい試みがいくつか提案されていますが、この問題はまだ解決には程遠いです。
この論文では、VL モデルの構成推論のパフォーマンスを制限する 2 つの要因を明らかにします。
これら 2 つの要素は、VL モデルの微調整と事前トレーニングに使用されるペアの VL データセットのプロパティです。(i) テキストのキャプションの品質、言い換えれば「画像の位置合わせ」。
(ii) 画像に表示されるすべての詳細に言及するという意味でのキャプションの「密度」。
私たちは、標準 VL データセット (CC3M) を活用してこれらの要因を自動的に処理するための微調整アプローチを提案します。
CLIP に適用すると、構成推論のパフォーマンスがベース モデルと比較して最大 $\sim27\%$、最強のベースラインと比較して最大 $\sim20\%$、平均で $6.7\%$ の大幅な向上を示しました。

要約(オリジナル)

Vision and Language (VL) models offer an effective method for aligning representation spaces of images and text, leading to numerous applications such as cross-modal retrieval, visual question answering, captioning, and more. However, the aligned image-text spaces learned by all the popular VL models are still suffering from the so-called `object bias’ – their representations behave as `bags of nouns’, mostly ignoring or downsizing the attributes, relations, and states of objects described/appearing in texts/images. Although some great attempts at fixing these `compositional reasoning’ issues were proposed in the recent literature, the problem is still far from being solved. In this paper, we uncover two factors limiting the VL models’ compositional reasoning performance. These two factors are properties of the paired VL dataset used for finetuning and pre-training the VL model: (i) the caption quality, or in other words `image-alignment’, of the texts; and (ii) the `density’ of the captions in the sense of mentioning all the details appearing on the image. We propose a fine-tuning approach for automatically treating these factors leveraging a standard VL dataset (CC3M). Applied to CLIP, we demonstrate its significant compositional reasoning performance increase of up to $\sim27\%$ over the base model, up to $\sim20\%$ over the strongest baseline, and by $6.7\%$ on average.

arxiv情報

著者 Sivan Doveh,Assaf Arbelle,Sivan Harary,Roei Herzig,Donghyun Kim,Paola Cascante-bonilla,Amit Alfassy,Rameswar Panda,Raja Giryes,Rogerio Feris,Shimon Ullman,Leonid Karlinsky
発行日 2023-06-01 16:16:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク