Distinctive Image Captioning: Leveraging Ground Truth Captions in CLIP Guided Reinforcement Learning

要約

教師強制を使用して画像キャプション モデルをトレーニングすると、非常に一般的なサンプルが得られますが、より特徴的なキャプションは、検索アプリケーションや、アクセシビリティのために画像を説明する代替テキストを作成する場合に非常に役立ちます。
強化学習 (RL) では、生成されたキャプションと入力画像の間のクロスモーダル検索類似性スコアをトレーニングをガイドする報酬として使用することができ、より特徴的なキャプションが得られます。
最近の研究では、事前トレーニングされたクロスモーダル検索モデルを使用してこの報酬を提供できることが示されており、参照キャプションの必要性が完全に排除されています。
ただし、この論文では、Ground Truth (GT) キャプションがこの RL フレームワークでも依然として役立つ可能性があると主張します。
我々は、GT キャプションをさまざまな方法で利用する新しい画像キャプション モデル トレーニング戦略を提案します。
まず、これらを使用して、報酬ハッキングを防止し、生成されるキャプションの流暢性を確保するための正則化として機能する単純な MLP 弁別器をトレーニングすることができ、その結果、マルチモーダル入力用に拡張されたテキスト GAN セットアップが実現します。
第 2 に、それらは RL 戦略における追加の軌道として機能することができ、その結果、教師は画像に対する GT の類似性によって重み付けされた損失を強制することになります。
この目的は、GT キャプションの配信に基づいた追加の学習信号として機能します。
第三に、勾配推定値の分散を減らすために、提案された対比報酬を計算するために使用されるキャプションのプールに追加すると、強力なベースラインとして機能します。
MS-COCO での実験は、高い文章品質を維持しながら非常に特徴的なキャプションを生成するという、提案されたトレーニング戦略の興味深いことを示しています。

要約(オリジナル)

Training image captioning models using teacher forcing results in very generic samples, whereas more distinctive captions can be very useful in retrieval applications or to produce alternative texts describing images for accessibility. Reinforcement Learning (RL) allows to use cross-modal retrieval similarity score between the generated caption and the input image as reward to guide the training, leading to more distinctive captions. Recent studies show that pre-trained cross-modal retrieval models can be used to provide this reward, completely eliminating the need for reference captions. However, we argue in this paper that Ground Truth (GT) captions can still be useful in this RL framework. We propose a new image captioning model training strategy that makes use of GT captions in different ways. Firstly, they can be used to train a simple MLP discriminator that serves as a regularization to prevent reward hacking and ensures the fluency of generated captions, resulting in a textual GAN setup extended for multimodal inputs. Secondly, they can serve as additional trajectories in the RL strategy, resulting in a teacher forcing loss weighted by the similarity of the GT to the image. This objective acts as an additional learning signal grounded to the distribution of the GT captions. Thirdly, they can serve as strong baselines when added to the pool of captions used to compute the proposed contrastive reward to reduce the variance of gradient estimate. Experiments on MS-COCO demonstrate the interest of the proposed training strategy to produce highly distinctive captions while maintaining high writing quality.

arxiv情報

著者 Antoine Chaffin,Ewa Kijak,Vincent Claveau
発行日 2024-02-21 17:05:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク