Demonstrating and Reducing Shortcuts in Vision-Language Representation Learning

要約

視覚言語モデル (VLM) は、主に対照的なトレーニングに依存して、画像とキャプションの汎用表現を学習します。
私たちは、1 つの画像が複数のキャプションに関連付けられている状況に焦点を当てます。各キャプションには、すべてのキャプション間で共有される情報と、画像に描かれているシーンに関するキャプションごとの固有の情報の両方が含まれています。
このような場合、キャプションによって提供されるすべての情報を含むタスクに最適な表現を学習するのにコントラスト損失が十分であるかどうか、またはコントラスト学習設定がコントラスト損失を最小限に抑える単純なショートカットの学習を促進するかどうかは不明です。
ビジョン言語の合成ショートカットを導入します。これは、合成ショートカットを画像テキスト データに挿入するトレーニングおよび評価フレームワークです。
これらの合成ショートカットを含むデータを使用してゼロからトレーニングまたは微調整された対照的な VLM は、主にショートカットを表す特徴を学習することを示します。
したがって、コントラスト損失は、タスクに最適な表現、つまり、画像と関連するキャプション間で共有されるすべてのタスク関連情報を含む表現を学習するには十分ではありません。
トレーニングと評価のフレームワークでショートカット学習を削減するための 2 つの方法、(i) 潜在ターゲットのデコードと (ii) 暗黙的な特徴の変更を検証します。
どちらの方法でも評価タスクのパフォーマンスは向上しますが、ショートカット学習フレームワークを使用してトレーニングおよび評価する場合、ショートカット学習は部分的にしか減少しないことが経験的に示されています。
したがって、対照的な視覚言語表現学習のためのショートカット学習フレームワークの難しさと課題を示します。

要約(オリジナル)

Vision-language models (VLMs) mainly rely on contrastive training to learn general-purpose representations of images and captions. We focus on the situation when one image is associated with several captions, each caption containing both information shared among all captions and unique information per caption about the scene depicted in the image. In such cases, it is unclear whether contrastive losses are sufficient for learning task-optimal representations that contain all the information provided by the captions or whether the contrastive learning setup encourages the learning of a simple shortcut that minimizes contrastive loss. We introduce synthetic shortcuts for vision-language: a training and evaluation framework where we inject synthetic shortcuts into image-text data. We show that contrastive VLMs trained from scratch or fine-tuned with data containing these synthetic shortcuts mainly learn features that represent the shortcut. Hence, contrastive losses are not sufficient to learn task-optimal representations, i.e., representations that contain all task-relevant information shared between the image and associated captions. We examine two methods to reduce shortcut learning in our training and evaluation framework: (i) latent target decoding and (ii) implicit feature modification. We show empirically that both methods improve performance on the evaluation task, but only partly reduce shortcut learning when training and evaluating with our shortcut learning framework. Hence, we show the difficulty and challenge of our shortcut learning framework for contrastive vision-language representation learning.

arxiv情報

著者 Maurits Bleeker,Mariya Hendriksen,Andrew Yates,Maarten de Rijke
発行日 2024-07-31 21:02:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク