Language Plays a Pivotal Role in the Object-Attribute Compositional Generalization of CLIP

要約

CLIP などのビジョン言語モデルは、さまざまなタイプの配布シフトの下で、有望な配布外 (OoD) 一般化を示しています。
最近の研究では、この機能の主な原因を調査することが試みられました。
この研究では、同じ道をたどりますが、特定のタイプの OoD データ (属性とオブジェクトのペアの新しい構成を持つ画像) に焦点を当て、そのようなモデルがそれらの画像を構成クラスにうまく分類できるかどうかを研究します。
私たちは、CLIP トレーニング セットでは遭遇する可能性が低いオブジェクトの属性で構成される、ImageNet-AO と呼ばれる本格的な画像テスト データセットを慎重に設計しました。
OpenAI CLIP、LAION-400M、LAION-2B などの大規模なデータセットでトレーニングされた CLIP は、教師ありモデルや CC-12M などの小規模なデータセットでトレーニングされた CLIP と比較して、効果的な構成 OoD 一般化において桁違いの改善を示すことがわかりました。
そしてYFCC-15M。
私たちの結果は、トレーニングデータの規模と多様性、および言語の監視が、視覚言語モデルの構成的一般化能力を解き放つ上で重要な役割を果たしているという証拠を提供します。

要約(オリジナル)

Vision-language models, such as CLIP, have shown promising Out-of-Distribution (OoD) generalization under various types of distribution shifts. Recent studies attempted to investigate the leading cause of this capability. In this work, we follow the same path, but focus on a specific type of OoD data – images with novel compositions of attribute-object pairs – and study whether such models can successfully classify those images into composition classes. We carefully designed an authentic image test dataset called ImageNet-AO, consisting of attributes for objects that are unlikely encountered in the CLIP training sets. We found that CLIPs trained with large datasets such as OpenAI CLIP, LAION-400M, and LAION-2B show orders-of-magnitude improvement in effective compositional OoD generalization compared to both supervised models and CLIPs trained with smaller datasets, such as CC-12M and YFCC-15M. Our results provide evidence that the scale and diversity of training data and language supervision play a key role in unlocking the compositional generalization abilities of vision-language models.

arxiv情報

著者 Reza Abbasi,Mohammad Samiei,Mohammad Hossein Rohban,Mahdieh Soleymani Baghshah
発行日 2024-03-27 12:59:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク