Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via Text-Only Training

要約

画像キャプションは、画像の説明的で意味のあるテキスト記述を生成し、幅広い視覚言語アプリケーションを可能にすることを目的としている。先行研究では、CLIP(Contrastive Image Language Pre-training)の力を利用することで、高価なキャプション注釈の必要性を排除し、ゼロショットキャプションを実現する有望なアプローチを提供することが実証されている。しかしながら、CLIPの潜在空間において広く観察されるモダリティギャップは、対になる画像-テキスト特徴間のアライメントを壊すことにより、ゼロショットキャプションのパフォーマンスに悪影響を与える。この問題に対処するため、CLIPの潜在空間について分析を行い、2つの発見を導く。第一に、CLIPの視覚的特徴である画像部分領域は、テキスト記述における固有の情報損失により、対となるキャプションにより近い距離を達成できることを観察する。さらに、対になる画像とテキストの間のモダリティギャップは、経験的にゼロ平均ガウス分布としてモデル化できることを示す。この知見に動機づけられ、我々はモダリティギャップを低減するために、テキストのみの学習による新しいゼロショット画像キャプションフレームワークを提案する。特に、局所領域情報を活用するための部分領域特徴集約を導入し、テキスト表現にマッチするコンパクトな視覚表現を生成する。さらに、キャプションの性能を向上させるために、ノイズ注入とCLIPリランキング戦略を取り入れる。また、我々のフレームワークを拡張して、ゼロショットVQAパイプラインを構築し、その汎用性を実証する。MSCOCO、Flickr30k、VQAV2などの一般的なキャプション付けとVQAデータセットでの広範な実験を通して、我々の手法が顕著な性能向上を達成することを示す。コードはhttps://github.com/Artanic30/MacCap。

要約(オリジナル)

Image captioning aims at generating descriptive and meaningful textual descriptions of images, enabling a broad range of vision-language applications. Prior works have demonstrated that harnessing the power of Contrastive Image Language Pre-training (CLIP) offers a promising approach to achieving zero-shot captioning, eliminating the need for expensive caption annotations. However, the widely observed modality gap in the latent space of CLIP harms the performance of zero-shot captioning by breaking the alignment between paired image-text features. To address this issue, we conduct an analysis on the CLIP latent space which leads to two findings. Firstly, we observe that the CLIP’s visual feature of image subregions can achieve closer proximity to the paired caption due to the inherent information loss in text descriptions. In addition, we show that the modality gap between a paired image-text can be empirically modeled as a zero-mean Gaussian distribution. Motivated by the findings, we propose a novel zero-shot image captioning framework with text-only training to reduce the modality gap. In particular, we introduce a subregion feature aggregation to leverage local region information, which produces a compact visual representation for matching text representation. Moreover, we incorporate a noise injection and CLIP reranking strategy to boost captioning performance. We also extend our framework to build a zero-shot VQA pipeline, demonstrating its generality. Through extensive experiments on common captioning and VQA datasets such as MSCOCO, Flickr30k and VQAV2, we show that our method achieves remarkable performance improvements. Code is available at https://github.com/Artanic30/MacCap.

arxiv情報

著者 Longtian Qiu,Shan Ning,Xuming He
発行日 2024-01-04 16:43:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク