CgT-GAN: CLIP-guided Text GAN for Image Captioning

要約

大規模な視覚言語の事前トレーニング モデルである Contrastive Language-Image Pre-training (CLIP) により、人間による注釈が付けられた画像とキャプションのペアがないシナリオの画像キャプションが大幅に改善されました。
人間の注釈を使用しない最近の高度な CLIP ベースの画像キャプションは、テキストのみのトレーニング パラダイム、つまり、共有埋め込みスペースからテキストを再構築します。
それにもかかわらず、これらのアプローチは、トレーニングと推論のギャップ、またはテキスト埋め込みのための膨大なストレージ要件によって制限されます。
現実世界で画像を取得するのは簡単であることを考慮して、CLIP ガイド付きテキスト GAN (CgT-GAN) を提案します。CLIP ガイド付きテキスト GAN (CgT-GAN) は、トレーニング プロセスに画像を組み込んで、モデルが実際の視覚モダリティを「見る」ことができるようにします。
特に、敵対的トレーニングを使用して、CgT-GAN に外部テキスト コーパスのフレーズを模倣するように教え、CLIP ベースの報酬を使用して意味論的なガイダンスを提供します。
キャプション ジェネレーターは、GAN の弁別器から計算された人間の言語に対するキャプションの自然さと、CLIP ベースの報酬モジュールによって計算されたセマンティック ガイダンス報酬に基づいて共同で報酬を与えられます。
セマンティック ガイダンス報酬 (つまり、CLIP-cos) としてのコサイン類似性に加えて、CLIP-agg と呼ばれる新しいセマンティック ガイダンス報酬をさらに導入します。これは、コーパス全体を注意深く集約することによって、生成されたキャプションを重み付けされたテキスト埋め込みと位置合わせします。
3 つのサブタスク (ZS-IC、In-UIC、および Cross-UIC) に関する実験結果は、CgT-GAN がすべての指標にわたって最先端の手法を大幅に上回るパフォーマンスを示していることを示しています。
コードは https://github.com/Lihr747/CgtGAN で入手できます。

要約(オリジナル)

The large-scale visual-language pre-trained model, Contrastive Language-Image Pre-training (CLIP), has significantly improved image captioning for scenarios without human-annotated image-caption pairs. Recent advanced CLIP-based image captioning without human annotations follows a text-only training paradigm, i.e., reconstructing text from shared embedding space. Nevertheless, these approaches are limited by the training/inference gap or huge storage requirements for text embeddings. Given that it is trivial to obtain images in the real world, we propose CLIP-guided text GAN (CgT-GAN), which incorporates images into the training process to enable the model to ‘see’ real visual modality. Particularly, we use adversarial training to teach CgT-GAN to mimic the phrases of an external text corpus and CLIP-based reward to provide semantic guidance. The caption generator is jointly rewarded based on the caption naturalness to human language calculated from the GAN’s discriminator and the semantic guidance reward computed by the CLIP-based reward module. In addition to the cosine similarity as the semantic guidance reward (i.e., CLIP-cos), we further introduce a novel semantic guidance reward called CLIP-agg, which aligns the generated caption with a weighted text embedding by attentively aggregating the entire corpus. Experimental results on three subtasks (ZS-IC, In-UIC and Cross-UIC) show that CgT-GAN outperforms state-of-the-art methods significantly across all metrics. Code is available at https://github.com/Lihr747/CgtGAN.

arxiv情報

著者 Jiarui Yu,Haoran Li,Yanbin Hao,Bin Zhu,Tong Xu,Xiangnan He
発行日 2023-08-23 10:25:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM パーマリンク