Cross-Domain Image Captioning with Discriminative Finetuning

要約

タイトル:ディスクリミネーティブ・ファインチューニングを用いたクロスドメイン画像キャプショニング

要約:
– ニューラルなキャプショナーは、一般的に人間が生成したリファレンスを模倣するように訓練されていますが、特定のコミュニケーション目標に対して最適化されていないため、曖昧なキャプションの生成などの問題が生じることがあります。
– 本論文では、自己監督的なディスクリミネーティブなコミュニケーション目標でニューラルなキャプショナーをアウトオブジャンゴードとともにファインチューニングすることで、画像の内容に関する情報をより多く含んだ簡明で視覚的な言語を取り戻すことができることを示します。
– ターゲット画像が与えられた場合、システムは、セットの候補の中からそのような画像を特定するためにアウトオブジャンゴードのテキスト依存型画像リトリーバーを可能にする説明を生成することを学習しなければなりません。
– 人間の記述に対する類似度の観点から、ディスクリミネーティブなファインチューニングを行わないモデルでトレーニングおよびテストされた場合、ディスクリミネーティブなファインチューニングを行ったモデルよりも少し遅れることがあります。
– ただし、アウトオブドメインのデータセットのキャプションを生成するために、ファインチューニングを行ったキャプショナーは、ファインチューニングを行わなかった同じキャプショナーが生成するものよりも人間のリファレンスに似た記述を生成します。
– さらに、Conceptual Captionsデータセットでは、ディスクリミネーティブにファインチューニングされたキャプションは、バニラのClipCapキャプションまたはグラウンドトゥルースキャプションよりも、画像の識別タスクを担当する人間の注釈者にとってより役立つことを示しました。

要約(オリジナル)

Neural captioners are typically trained to mimic human-generated references without optimizing for any specific communication goal, leading to problems such as the generation of vague captions. In this paper, we show that fine-tuning an out-of-the-box neural captioner with a self-supervised discriminative communication objective helps to recover a plain, visually descriptive language that is more informative about image contents. Given a target image, the system must learn to produce a description that enables an out-of-the-box text-conditioned image retriever to identify such image among a set of candidates. We experiment with the popular ClipCap captioner, also replicating the main results with BLIP. In terms of similarity to ground-truth human descriptions, the captions emerging from discriminative finetuning lag slightly behind those generated by the non-finetuned model, when the latter is trained and tested on the same caption dataset. However, when the model is used without further tuning to generate captions for out-of-domain datasets, our discriminatively-finetuned captioner generates descriptions that resemble human references more than those produced by the same captioner without finetuning. We further show that, on the Conceptual Captions dataset, discriminatively finetuned captions are more helpful than either vanilla ClipCap captions or ground-truth captions for human annotators tasked with an image discrimination task.

arxiv情報

著者 Roberto Dessì,Michele Bevilacqua,Eleonora Gualdoni,Nathanael Carraz Rakotonirina,Francesca Franzon,Marco Baroni
発行日 2023-04-04 09:33:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク