Guiding Image Captioning Models Toward More Specific Captions

要約

画像キャプションは、従来、参照画像とキャプションのペアの分布に一致する画像のキャプションを生成するタスクとして定式化されていました。
ただし、標準的なキャプション データセットの参照キャプションは短く、説明されている画像を一意に識別できない場合があります。
インターネットから収集した画像と代替テキストのペアでモデルを直接トレーニングすると、これらの問題はさらに悪化します。
この研究では、トレーニング プロセスへの最小限の変更で、より具体的なキャプションを生成できることを示します。
自己回帰キャプション モデルを微調整して、キャプションの条件付き分布と無条件分布の両方を推定することにより、分類子を使用しないガイダンスを実装します。
デコード時に適用されるガイダンス スケールは、$p(\mathrm{caption}|\mathrm{image})$ の最大化と $p(\mathrm{image}|\mathrm{caption})$ の間のトレードオフを制御します。
標準的なグリーディ デコーディングと比較して、ガイダンス スケール 2 でのデコーディングは、CLIPScore (0.808 対 0.775) や CLIP 埋め込み空間での caption$\to$image 取得パフォーマンス (recall@1 44.6% vs.
26.5%)、標準的な参照ベースのキャプション指標は悪化します (例: CIDEr 78.6 対 126.1)。
さらに、デコードプロセスをガイドするための言語モデルの使用を検討し、分類子なしのガイダンスから生じる参照なしと参照ベースのキャプションメトリクスのパレートフロンティアを超える小さな改善を得て、言語モデルから生成されるキャプションの品質を大幅に向上させます。
最小限に厳選された Web データのみでトレーニングされたモデル。

要約(オリジナル)

Image captioning is conventionally formulated as the task of generating captions for images that match the distribution of reference image-caption pairs. However, reference captions in standard captioning datasets are short and may not uniquely identify the images they describe. These problems are further exacerbated when models are trained directly on image-alt text pairs collected from the internet. In this work, we show that it is possible to generate more specific captions with minimal changes to the training process. We implement classifier-free guidance for an autoregressive captioning model by fine-tuning it to estimate both conditional and unconditional distributions over captions. The guidance scale applied at decoding controls a trade-off between maximizing $p(\mathrm{caption}|\mathrm{image})$ and $p(\mathrm{image}|\mathrm{caption})$. Compared to standard greedy decoding, decoding with a guidance scale of 2 substantially improves reference-free metrics such as CLIPScore (0.808 vs. 0.775) and caption$\to$image retrieval performance in the CLIP embedding space (recall@1 44.6% vs. 26.5%), but worsens standard reference-based captioning metrics (e.g., CIDEr 78.6 vs 126.1). We further explore the use of language models to guide the decoding process, obtaining small improvements over the Pareto frontier of reference-free vs. reference-based captioning metrics that arises from classifier-free guidance, and substantially improving the quality of captions generated from a model trained only on minimally curated web data.

arxiv情報

著者 Simon Kornblith,Lala Li,Zirui Wang,Thao Nguyen
発行日 2023-07-31 14:00:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク