CLoVe: Encoding Compositional Language in Contrastive Vision-Language Models

要約

近年、視覚と言語のタスクの性能が著しく向上している。CLIPのような基礎的な視覚-言語モデル(VLM)は、様々な場面で活用され、いくつかのタスクで顕著な性能を発揮している。このようなモデルは物体中心の認識に優れているが、語順に不変と思われるテキスト表現を学習するため、既知の概念を新しい方法で構成することができない。しかし、GPT-4Vのような大規模なシングルストリームモデルを含め、どのようなVLMも合成をうまく識別したという証拠は存在しない。本論文では、標準的な物体認識・検索ベンチマークでの性能を維持・向上させながら、構文性ベンチマークで10%以上の絶対的な改善を実現し、既存のモデルの構文言語の符号化能力を大幅に向上させるフレームワークを紹介する。我々のコードと訓練済みモデルは、https://github.com/netflix/clove で公開されている。

要約(オリジナル)

Recent years have witnessed a significant increase in the performance of Vision and Language tasks. Foundational Vision-Language Models (VLMs), such as CLIP, have been leveraged in multiple settings and demonstrated remarkable performance across several tasks. Such models excel at object-centric recognition yet learn text representations that seem invariant to word order, failing to compose known concepts in novel ways. However, no evidence exists that any VLM, including large-scale single-stream models such as GPT-4V, identifies compositions successfully. In this paper, we introduce a framework to significantly improve the ability of existing models to encode compositional language, with over 10% absolute improvement on compositionality benchmarks, while maintaining or improving the performance on standard object-recognition and retrieval benchmarks. Our code and pre-trained models are publicly available at https://github.com/netflix/clove.

arxiv情報

著者 Santiago Castro,Amir Ziai,Avneesh Saluja,Zhuoning Yuan,Rada Mihalcea
発行日 2024-03-01 01:52:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV パーマリンク