The Role of Data Curation in Image Captioning

要約

画像キャプションモデルは通常、すべてのサンプルを平等に扱うことで学習され、ミスマッチやその他の困難なデータポイントを考慮することは無視される。これに対して、最近の研究では、カリキュラム学習戦略を用いてデータをスケジューリングすることによりモデルを学習することの有効性が示されている。本論文は、総サンプル数を増やすことなく、データセット中の困難なサンプルを積極的にキュレーションすることで、この方向性に貢献する。サンプルの完全削除、キャプションの置換、テキストから画像への生成モデルによる画像の置換である。BLIPモデルとBEiT-3モデルを用いたFlickr30KデータセットとCOCOデータセットの実験により、これらのキュレーション手法が実際に画像キャプションモデルの改善をもたらすことを実証し、その有効性を強調する。

要約(オリジナル)

Image captioning models are typically trained by treating all samples equally, neglecting to account for mismatched or otherwise difficult data points. In contrast, recent work has shown the effectiveness of training models by scheduling the data using curriculum learning strategies. This paper contributes to this direction by actively curating difficult samples in datasets without increasing the total number of samples. We explore the effect of using three data curation methods within the training process: complete removal of an sample, caption replacement, or image replacement via a text-to-image generation model. Experiments on the Flickr30K and COCO datasets with the BLIP and BEiT-3 models demonstrate that these curation methods do indeed yield improved image captioning models, underscoring their efficacy.

arxiv情報

著者 Wenyan Li,Jonas F. Lotz,Chen Qiu,Desmond Elliott
発行日 2024-02-02 15:46:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク