Text-Only Training for Image Captioning using Noise-Injected CLIP

要約

トレーニング時にCLIPモデルと追加のテキストデータのみを使用し、追加のキャプション付き画像を使用しない画像キャプションのタスクを検討します。
私たちのアプローチは、CLIP が視覚的な埋め込みとテキストの埋め込みを類似させるように訓練されているという事実に依存しています。
したがって、CLIP テキスト埋め込みをテキストに変換する方法を学習するだけでよく、テキストのみを使用して凍結された CLIP テキスト エンコーダーのデコーダーを学習することで、これを行う方法を学習できます。
埋め込みスペース間のギャップのために、この直感は「ほぼ正しい」と主張し、トレーニング中のノイズ注入によってこれを修正することを提案します。
スタイル転送を含む 4 つのベンチマークで SOTA ゼロショット画像キャプションを示すことにより、アプローチの有効性を実証します。
コード、データ、モデルは GitHub で入手できます。

要約(オリジナル)

We consider the task of image-captioning using only the CLIP model and additional text data at training time, and no additional captioned images. Our approach relies on the fact that CLIP is trained to make visual and textual embeddings similar. Therefore, we only need to learn how to translate CLIP textual embeddings back into text, and we can learn how to do this by learning a decoder for the frozen CLIP text encoder using only text. We argue that this intuition is ‘almost correct’ because of a gap between the embedding spaces, and propose to rectify this via noise injection during training. We demonstrate the effectiveness of our approach by showing SOTA zero-shot image captioning across four benchmarks, including style transfer. Code, data, and models are available on GitHub.

arxiv情報

著者 David Nukrai,Ron Mokady,Amir Globerson
発行日 2022-11-01 16:36:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク