Fine-grained Image Captioning with CLIP Reward

要約

最新の画像キャプション モデルは通常、テキストの類似性を目的としてトレーニングされます。
ただし、公開データセットの参照キャプションは最も顕著な一般的なオブジェクトを説明することが多いため、テキストの類似性の目的でトレーニングされたモデルは、他の画像と区別する画像の特定の詳細な側面を無視する傾向があります。
より説明的で特徴的なキャプション生成に向けて、Web からの巨大な画像とテキストのペアでトレーニングされたマルチモーダル エンコーダーである CLIP を使用して、マルチモーダル類似度を計算し、それを報酬関数として使用することを提案します。
また、追加のテキスト注釈を必要としない文法を改善するための、CLIP テキスト エンコーダーの簡単な微調整戦略も提案します。
これにより、報酬の計算中に参照キャプションが完全に不要になります。
説明的なキャプションを包括的に評価するために、FineCapEval を導入しました。これは、全体、背景、オブジェクト、関係などのきめの細かい基準を使用したキャプション評価用の新しいデータセットです。
テキストから画像への検索と FineCapEval に関する実験では、提案された CLIP ガイド付きモデルは、CIDEr 最適化モデルよりも特徴的なキャプションを生成します。
また、CLIPテキストエンコーダーの教師なし文法微調整が、単純なCLIP報酬の縮退問題を軽減することも示しています。
最後に、さまざまな基準に従って、アノテーターが CIDEr および MLE 目的よりも CLIP 報酬を強く好む人間の分析を示します。
コードとデータ: https://github.com/j-min/CLIP-Caption-Reward

要約(オリジナル)

Modern image captioning models are usually trained with text similarity objectives. However, since reference captions in public datasets often describe the most salient common objects, models trained with text similarity objectives tend to ignore specific and detailed aspects of an image that distinguish it from others. Toward more descriptive and distinctive caption generation, we propose using CLIP, a multimodal encoder trained on huge image-text pairs from web, to calculate multimodal similarity and use it as a reward function. We also propose a simple finetuning strategy of the CLIP text encoder to improve grammar that does not require extra text annotation. This completely eliminates the need for reference captions during the reward computation. To comprehensively evaluate descriptive captions, we introduce FineCapEval, a new dataset for caption evaluation with fine-grained criteria: overall, background, object, relations. In our experiments on text-to-image retrieval and FineCapEval, the proposed CLIP-guided model generates more distinctive captions than the CIDEr-optimized model. We also show that our unsupervised grammar finetuning of the CLIP text encoder alleviates the degeneration problem of the naive CLIP reward. Lastly, we show human analysis where the annotators strongly prefer the CLIP reward to the CIDEr and MLE objectives according to various criteria. Code and Data: https://github.com/j-min/CLIP-Caption-Reward

arxiv情報

著者 Jaemin Cho,Seunghyun Yoon,Ajinkya Kale,Franck Dernoncourt,Trung Bui,Mohit Bansal
発行日 2023-03-29 18:26:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク