Multimodal Data Augmentation for Image Captioning using Diffusion Models

要約

タイトル:拡散モデルを用いたマルチモーダルデータ拡張による画像キャプショニング

要約:
– 画像キャプショニングは、画像とテキストの間の基盤となるアラインメントを学習するために、非常に多くの細かいラベル付きの画像キャプションペアが必要とされるビジョン・ランゲージのタスクの一つである。
– 本研究では、テキストから画像を生成するモデルの一つであるStable Diffusionを利用したマルチモーダルデータ拡張手法を提案し、高品質の画像キャプションペアの生成によって訓練セットを拡張する。
– MS COCOデータセットでの広範な実験により、提案手法がいくつかのベンチマーク手法よりも優れていること、特に訓練インスタンスが少ない場合に大幅に改善されることが示された。
– さらに、生成されたデータを品質評価に基づいて意図的にフィルタリングすることで、訓練の効率と効果を改善することができることが示された。

要約(オリジナル)

Image captioning, an important vision-language task, often requires a tremendous number of finely labeled image-caption pairs for learning the underlying alignment between images and texts. In this paper, we proposed a multimodal data augmentation method, leveraging a recent text-to-image model called Stable Diffusion, to expand the training set via high-quality generation of image-caption pairs. Extensive experiments on the MS COCO dataset demonstrate the advantages of our approach over several benchmark methods, and particularly a significant boost when having fewer training instances. In addition, models trained on our augmented datasets also outperform prior unpaired image captioning methods by a large margin. Finally, further improvement regarding the training efficiency and effectiveness can be obtained after intentionally filtering the generated data based on quality assessment.

arxiv情報

著者 Changrong Xiao,Sean Xin Xu,Kunpeng Zhang
発行日 2023-05-03 01:57:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク