Prompt-based Learning for Unpaired Image Captioning

要約

Unpaired Image Captioning (UIC) は、整列されていない視覚と言語のサンプル ペアから画像の説明を学習するために開発されました。
既存の作品は通常、強化学習に基づく敵対的学習と視覚的概念報酬を使用してこのタスクに取り組んでいます。
ただし、これらの既存の作品は、視覚および言語ドメインの限られたクロスドメイン情報しか学習できなかったため、UIC のキャプション性能が制限されていました。
この研究における視覚言語事前訓練済みモデル (VL-PTM) の成功に触発されて、UIC タスクの大きな VL-PTM から特定の画像に関するクロスドメイン キュー情報を推測しようとします。
この研究は、画像とテキストの検索や視覚的な質問への回答など、下流の多くのマルチモーダル タスクにおける迅速な学習の最近の成功によっても動機付けられています。
この作業では、敵対的学習フレームワークの下でより正確なキャプション予測を行うために、セマンティック プロンプトが導入され、視覚的機能が集約されます。
さらに、メトリクス プロンプトは、基本キャプション モデルから取得した高品質の疑似画像キャプション サンプルを選択し、反復的にモデルを改良するように設計されています。
COCO および Flickr30K データセットでの広範な実験により、提案されたモデルの有望なキャプション機能が検証されます。
提案されたプロンプトベースの UIC モデルが、VL-PTM ベースのキャプションに関する新しい研究を刺激することを期待しています。

要約(オリジナル)

Unpaired Image Captioning (UIC) has been developed to learn image descriptions from unaligned vision-language sample pairs. Existing works usually tackle this task using adversarial learning and visual concept reward based on reinforcement learning. However, these existing works were only able to learn limited cross-domain information in vision and language domains, which restrains the captioning performance of UIC. Inspired by the success of Vision-Language Pre-Trained Models (VL-PTMs) in this research, we attempt to infer the cross-domain cue information about a given image from the large VL-PTMs for the UIC task. This research is also motivated by recent successes of prompt learning in many downstream multi-modal tasks, including image-text retrieval and vision question answering. In this work, a semantic prompt is introduced and aggregated with visual features for more accurate caption prediction under the adversarial learning framework. In addition, a metric prompt is designed to select high-quality pseudo image-caption samples obtained from the basic captioning model and refine the model in an iterative manner. Extensive experiments on the COCO and Flickr30K datasets validate the promising captioning ability of the proposed model. We expect that the proposed prompt-based UIC model will stimulate a new line of research for the VL-PTMs based captioning.

arxiv情報

著者 Peipei Zhu,Xiao Wang,Lin Zhu,Zhenglong Sun,Weishi Zheng,Yaowei Wang,Changwen Chen
発行日 2022-11-18 11:29:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク