MultiCapCLIP: Auto-Encoding Prompts for Zero-Shot Multilingual Visual Captioning

要約

教師付き視覚キャプション モデルでは、通常、トレーニングのために特定の言語での説明と組み合わせた大規模な画像またはビデオ (つまり、ビジョンとキャプションのペア) が必要です。
ただし、大規模なデータセットの収集とラベル付けは、多くのシナリオや言語にとって時間と費用がかかります。
したがって、通常は十分なラベル付きペアが利用できません。
ラベル不足の問題に対処するために、ダウンストリーム データセットのラベル付きビジョン キャプション ペアを使用せずに、さまざまなシナリオや言語のビジュアル キャプションを生成できる、シンプルかつ効果的なゼロショット アプローチ MultiCapCLIP を紹介します。
トレーニング段階では、MultiCapCLIP は入力としてテキスト データのみを必要とします。
次に、2 つの主要なステップを実行します。1) 新しいシナリオの対応するドメイン知識を保存するコンセプト プロンプトを取得します。
2) 希望の言語でキャプションを出力するための書き方を学習するためのプロンプトを自動エンコードします。
テスト段階では、MultiCapCLIP は代わりに視覚データを入力として直接受け取り、コンセプト プロンプトを取得して最終的な視覚的な説明を生成します。
4 つのベンチマークと 4 つの言語 (英語、中国語、ドイツ語、フランス語) にわたる画像とビデオのキャプションに関する広範な実験により、私たちのアプローチの有効性が確認されました。
最先端のゼロショット手法や弱く監視された手法と比較して、私たちの手法は、BLEU@4 および CIDEr メトリクスに関して 4.8% および 21.5% の絶対的な改善を達成しました。
私たちのコードは https://github.com/yangbang18/MultiCapCLIP で入手できます。

要約(オリジナル)

Supervised visual captioning models typically require a large scale of images or videos paired with descriptions in a specific language (i.e., the vision-caption pairs) for training. However, collecting and labeling large-scale datasets is time-consuming and expensive for many scenarios and languages. Therefore, sufficient labeled pairs are usually not available. To deal with the label shortage problem, we present a simple yet effective zero-shot approach MultiCapCLIP that can generate visual captions for different scenarios and languages without any labeled vision-caption pairs of downstream datasets. In the training stage, MultiCapCLIP only requires text data for input. Then it conducts two main steps: 1) retrieving concept prompts that preserve the corresponding domain knowledge of new scenarios; 2) auto-encoding the prompts to learn writing styles to output captions in a desired language. In the testing stage, MultiCapCLIP instead takes visual data as input directly to retrieve the concept prompts to generate the final visual descriptions. The extensive experiments on image and video captioning across four benchmarks and four languages (i.e., English, Chinese, German, and French) confirm the effectiveness of our approach. Compared with state-of-the-art zero-shot and weakly-supervised methods, our method achieves 4.8% and 21.5% absolute improvements in terms of BLEU@4 and CIDEr metrics. Our code is available at https://github.com/yangbang18/MultiCapCLIP.

arxiv情報

著者 Bang Yang,Fenglin Liu,Xian Wu,Yaowei Wang,Xu Sun,Yuexian Zou
発行日 2023-08-25 07:32:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク