DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only Training

要約

CLIPなどの大規模な事前学習済みマルチモーダルモデルは、多くの識別タスクにおいて強いゼロショット転送能力を示している。これらのモデルをゼロショット画像条件付きテキスト生成タスクに適応させることは、ますます関心を集めています。先行技術では、既存の大規模言語モデル(GPT-2など)を利用するか、エンコーダ・デコーダネットワークをエンドツーエンドで事前学習することで、ゼロショットキャプションにアプローチしています。本研究では、ゼロショット・キャプションのためのシンプルなフレームワーク(DeCap)を提案します。軽量な視覚認識言語デコーダを導入する。このデコーダは、データ効率と計算効率の両方に優れている。1) 学習に必要なのはテキストデータだけであり、ペアデータの収集にかかる負担を軽減する。2) エンドツーエンドの学習が不要である。テキストデータのみで学習する場合、デコーダは市販のCLIPエンコーダから抽出したテキスト埋め込みを前埋め込みとして利用する。課題は、デコーダはテキストコーパスで訓練されるが、推論段階では、視覚的な入力に基づいてキャプションを生成する必要があることである。マルチモーダル対照モデルでは、モダリティギャップの問題が広く観察され、視覚的な埋め込みを直接プレフィックス埋め込みとして取り込むことができない。我々は、モダリティギャップを軽減するための訓練不要のメカニズムを提案する。視覚的な埋め込みをCLIPのテキスト埋め込み空間に投影し、投影された埋め込みは視覚的な入力の情報を保持したまま、テキスト埋め込みを行う。投影された埋め込みを前置埋め込みとすることで、デコーダは視覚入力にマッチした高品質の記述を生成する。実験の結果、DeCapは、典型的な画像キャプションベンチマークであるMSCOCOやNoCapsにおいて、他のゼロショットキャプション法やペアキャプション法を凌駕することが示された。

要約(オリジナル)

Large-scale pre-trained multi-modal models (e.g., CLIP) demonstrate strong zero-shot transfer capability in many discriminative tasks. Their adaptation to zero-shot image-conditioned text generation tasks has drawn increasing interest. Prior arts approach to zero-shot captioning by either utilizing the existing large language models (e.g., GPT-2) or pre-training the encoder-decoder network in an end-to-end manner. In this work, we propose a simple framework, named DeCap, for zero-shot captioning. We introduce a lightweight visual-aware language decoder. This decoder is both data-efficient and computation-efficient: 1) it only requires the text data for training, easing the burden on the collection of paired data. 2) it does not require end-to-end training. When trained with text-only data, the decoder takes the text embedding extracted from the off-the-shelf CLIP encoder as a prefix embedding. The challenge is that the decoder is trained on the text corpus but at the inference stage, it needs to generate captions based on visual inputs. The modality gap issue is widely observed in multi-modal contrastive models that prevents us from directly taking the visual embedding as the prefix embedding. We propose a training-free mechanism to reduce the modality gap. We project the visual embedding into the CLIP text embedding space, while the projected embedding retains the information of the visual input. Taking the projected embedding as the prefix embedding, the decoder generates high-quality descriptions that match the visual input. The experiments show that DeCap outperforms other zero-shot captioning methods and unpaired captioning methods on the typical image captioning benchmarks, i.e., MSCOCO and NoCaps.

arxiv情報

著者 Wei Li,Linchao Zhu,Longyin Wen,Yi Yang
発行日 2023-03-06 11:02:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク