要約
大規模なデータセットでトレーニングされた場合、画像キャプション モデルは一般的なドメインの画像の内容を理解できますが、多くの場合、正確で詳細なキャプションを生成できません。
パフォーマンスを向上させるために、事前トレーニングと微調整が画像キャプションの重要な戦略となってきました。
ただし、画像とテキストの間の大規模な双方向トレーニングにより、ゼロショットの画像キャプションが可能になることがわかりました。
このペーパーでは、ゼロショット画像キャプションのための効率的なトレーニングおよび推論フレームワークである、大規模な双方向画像テキスト トレーニング、BITTERS を紹介します。
また、ゼロショットキャプションの精度と社会的偏見を適切に評価するための、高品質のデータセットと広範な指標セットで構成される新しい評価ベンチマークを提案します。
さらに、キーワード抽出のための効率的な微調整アプローチも提供します。
私たちは、大規模なトレーニング セットとモデル アーキテクチャを慎重に選択することが、ゼロショットの画像キャプションを実現する鍵であることを示します。
要約(オリジナル)
When trained on large-scale datasets, image captioning models can understand the content of images from a general domain but often fail to generate accurate, detailed captions. To improve performance, pretraining-and-finetuning has been a key strategy for image captioning. However, we find that large-scale bidirectional training between image and text enables zero-shot image captioning. In this paper, we introduce Bidirectional Image Text Training in largER Scale, BITTERS, an efficient training and inference framework for zero-shot image captioning. We also propose a new evaluation benchmark which comprises of high quality datasets and an extensive set of metrics to properly evaluate zero-shot captioning accuracy and societal bias. We additionally provide an efficient finetuning approach for keyword extraction. We show that careful selection of large-scale training set and model architecture is the key to achieving zero-shot image captioning.
arxiv情報
著者 | Taehoon Kim,Mark Marsden,Pyunghwan Ahn,Sangyun Kim,Sihaeng Lee,Alessandra Sala,Seung Hwan Kim |
発行日 | 2023-10-01 13:59:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google