Self-Supervised Image Captioning with CLIP


小さなラベル付きデータセットから初期信号を学習した後、私たちの方法は、画像と生成されたキャプションの間の CLIP 関連性を強化する補助タスクを利用して、ラベルなしデータの自己教師あり学習に移行します。
驚くべきことに、ラベル付き COCO データセットの 2% 未満しか利用していないにもかかわらず、私たちの手法は完全なデータセットでトレーニングされた最先端のモデルと同等のパフォーマンスを実現します。
さらに、人間による評価では、私たちの方法がより優れた識別性と有益性を備えたキャプションを生成することが明らかになりました。この 2 つの特性は、教師あり学習を通じて達成することが本質的に困難です。


Image captioning, a fundamental task in vision-language understanding, seeks to generate accurate natural language descriptions for provided images. Current image captioning approaches heavily rely on high-quality image-caption pairs, which can be hard to obtain for many domains. To address this, we introduce a self-supervised image captioning method. After learning an initial signal from a small labeled dataset, our method transitions to self-supervised learning on unlabeled data, leveraging the auxiliary task of enhancing the CLIP relevance between images and generated captions. Remarkably, despite utilizing less than 2% of the labeled COCO dataset, our method delivers a performance comparable to state-of-the-art models trained on the complete dataset. Human evaluations further reveal that our method produces captions with greater distinctiveness and informativeness, two attributes inherently challenging to achieve through supervised learning.


著者 Chuanyang Jin
発行日 2023-11-02 17:57:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク