Teaching CLIP to Count to Ten

要約

CLIP などの大規模な視覚言語モデル (VLM) は、画像とテキストの豊富な結合表現を学習し、ゼロショット分類やテキストから画像への生成など、多数のダウンストリーム タスクの進歩を促進します。
それにもかかわらず、既存の VLM には十分に文書化された顕著な制限があり、カウントなどの構成概念をカプセル化できていません。
一般的なベンチマークでの全体的なパフォーマンスを維持しながら、VLM の定量的理解を向上させるためのシンプルで効果的な方法を紹介します。
具体的には、事前にトレーニングされた VLM を元の目的と連携して微調整するために使用される、新しいカウント コントラスト ロスを提案します。
私たちの計数損失は、自動的に作成された反事実の例に適用されます。それぞれの例は、画像と、誤ったオブジェクト数を含むキャプションで構成されています。
たとえば、3 匹の犬を描いた画像は、「庭で遊んでいる 6 匹の犬」というキャプションとペアになっています。
私たちの損失は、正しいキャプションと、その否定的な例として機能する反事実のバリアントとの間の差別を助長します.
私たちの知る限り、この作業は CLIP の機能をオブジェクト カウントに拡張した最初の作業です。
さらに、「CountBench」を導入します。これは、オブジェクト カウントに対するモデルの理解を評価するための新しい画像テキスト カウント ベンチマークです。
このタスクでは、最先端のベースライン モデルに比べて大幅な改善が見られます。
最後に、画像検索とテキスト条件付きの画像生成にカウント対応 CLIP モデルを活用し、モデルが既存のものよりも確実に特定のオブジェクト数を生成できることを示します。

要約(オリジナル)

Large vision-language models (VLMs), such as CLIP, learn rich joint image-text representations, facilitating advances in numerous downstream tasks, including zero-shot classification and text-to-image generation. Nevertheless, existing VLMs exhibit a prominent well-documented limitation – they fail to encapsulate compositional concepts such as counting. We introduce a simple yet effective method to improve the quantitative understanding of VLMs, while maintaining their overall performance on common benchmarks. Specifically, we propose a new counting-contrastive loss used to finetune a pre-trained VLM in tandem with its original objective. Our counting loss is deployed over automatically-created counterfactual examples, each consisting of an image and a caption containing an incorrect object count. For example, an image depicting three dogs is paired with the caption ‘Six dogs playing in the yard’. Our loss encourages discrimination between the correct caption and its counterfactual variant which serves as a hard negative example. To the best of our knowledge, this work is the first to extend CLIP’s capabilities to object counting. Furthermore, we introduce ‘CountBench’ – a new image-text counting benchmark for evaluating a model’s understanding of object counting. We demonstrate a significant improvement over state-of-the-art baseline models on this task. Finally, we leverage our count-aware CLIP model for image retrieval and text-conditioned image generation, demonstrating that our model can produce specific counts of objects more reliably than existing ones.

arxiv情報

著者 Roni Paiss,Ariel Ephrat,Omer Tov,Shiran Zada,Inbar Mosseri,Michal Irani,Tali Dekel
発行日 2023-02-23 14:43:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク