Self-Supervised Image Captioning with CLIP

要約

画像のキャプション付けは、視覚言語理解における基本的なタスクであり、提供された画像に対して正確な自然言語による説明を生成することを目的としています。
現在の画像キャプションのアプローチは、高品質の画像とキャプションのペアに大きく依存しており、多くのドメインではこれを入手するのが困難です。
これに対処するために、自己監視型画像キャプション手法を導入します。
小さなラベル付きデータセットから初期信号を学習した後、私たちの方法は、画像と生成されたキャプションの間の CLIP 関連性を強化する補助タスクを利用して、ラベルなしデータの自己教師あり学習に移行します。
驚くべきことに、ラベル付き COCO データセットの 2% 未満しか利用していないにもかかわらず、私たちの手法は完全なデータセットでトレーニングされた最先端のモデルと同等のパフォーマンスを実現します。
さらに、人間による評価では、私たちの方法がより優れた識別性と有益性を備えたキャプションを生成することが明らかになりました。この 2 つの特性は、教師あり学習を通じて達成することが本質的に困難です。

要約(オリジナル)

Image captioning, a fundamental task in vision-language understanding, seeks to generate accurate natural language descriptions for provided images. Current image captioning approaches heavily rely on high-quality image-caption pairs, which can be hard to obtain for many domains. To address this, we introduce a self-supervised image captioning method. After learning an initial signal from a small labeled dataset, our method transitions to self-supervised learning on unlabeled data, leveraging the auxiliary task of enhancing the CLIP relevance between images and generated captions. Remarkably, despite utilizing less than 2% of the labeled COCO dataset, our method delivers a performance comparable to state-of-the-art models trained on the complete dataset. Human evaluations further reveal that our method produces captions with greater distinctiveness and informativeness, two attributes inherently challenging to achieve through supervised learning.

arxiv情報

著者 Chuanyang Jin
発行日 2023-11-02 17:57:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク