要約
CLIP などの視覚および言語モデル (VLM) は、驚くべきゼロショット認識能力を示していますが、視覚言語の構成性、特に言語理解ときめ細かい画像とテキストの位置合わせにおいて課題に直面しています。
このペーパーでは、VLM 機能の 2 つの重要な側面である構成性と認識の間の複雑な関係を調査します。
私たちは、認識を目的とした事前トレーニング手法と、構成性を向上させるために設計された微調整手法の両方をカバーする、既存の VLM の包括的な評価を実施します。
私たちの評価では、構成性について 12 のベンチマークを使用し、認識については 21 のゼロショット分類と 2 つの検索ベンチマークを使用しています。
274 個の CLIP モデル チェックポイントからの分析では、構成の理解と認識精度の間に現れるパターンとトレードオフを明らかにします。
最終的には、両方の機能を向上させるモデルの開発に向けた戦略的な取り組みと、構成性のベンチマークの綿密な策定が必要になります。
評価フレームワークは https://github.com/ytaek-oh/vl_compo で公開されています。
要約(オリジナル)
Vision and language models (VLMs) such as CLIP have showcased remarkable zero-shot recognition abilities yet face challenges in visio-linguistic compositionality, particularly in linguistic comprehension and fine-grained image-text alignment. This paper explores the intricate relationship between compositionality and recognition — two pivotal aspects of VLM capability. We conduct a comprehensive evaluation of existing VLMs, covering both pre-training approaches aimed at recognition and the fine-tuning methods designed to improve compositionality. Our evaluation employs 12 benchmarks for compositionality, along with 21 zero-shot classification and two retrieval benchmarks for recognition. In our analysis from 274 CLIP model checkpoints, we reveal patterns and trade-offs that emerge between compositional understanding and recognition accuracy. Ultimately, this necessitates strategic efforts towards developing models that improve both capabilities, as well as the meticulous formulation of benchmarks for compositionality. We open our evaluation framework at https://github.com/ytaek-oh/vl_compo.
arxiv情報
著者 | Youngtaek Oh,Pyunghwan Ahn,Jinhyung Kim,Gwangmo Song,Soonyoung Lee,In So Kweon,Junmo Kim |
発行日 | 2024-06-13 17:58:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google