要約
State-of-The-Art (SoTA) 画像キャプション モデルは、トレーニングのために Microsoft COCO (MS-COCO) データセットに依存することがよくあります。
このデータセットには、人間のアノテーターによって提供されたアノテーションが含まれており、通常、平均して約 10 個のトークンのキャプションが作成されます。
ただし、この制約により、複雑なシーンを効果的にキャプチャし、詳細な情報を伝えることが困難になります。
さらに、キャプションモデルは、より一般的な側面のみを捉える「平均的な」キャプションに偏りを示す傾向があります。
より長いキャプションを自動的に生成して、より詳細なものにできたらどうなるでしょうか?
人間によって評価されたこれらのキャプションは、元の MS-COCO キャプションと比較して、多かれ少なかれ画像コンテンツを表しているでしょうか?
この論文では、さまざまな SoTA モデルから生成されたキャプションを効果的に融合して、より豊かなキャプションを実現する方法を紹介することで、これまでの課題に対処する新しいアプローチを紹介します。
私たちが提案する方法は、文献からの既存のモデルを活用するため、追加のトレーニングの必要がありません。
代わりに、画像テキストベースのメトリクスを利用して、特定の画像に対して SoTA モデルによって生成されたキャプションをランク付けします。
その後、上位 2 つのキャプションが大規模言語モデル (LLM) を使用して融合されます。
実験結果は、MS-COCO テスト セットで評価した場合、モデルによって生成されたキャプションが人間の判断とより高い一貫性を示すため、アプローチの有効性を示しています。
さまざまな SoTA モデルの長所を組み合わせることで、私たちの方法は画像キャプションの品質と魅力を向上させ、自動化されたシステムと人間が生成した説明の豊かで有益な性質との間のギャップを橋渡しします。
この進歩により、ビジョン言語モデルとキャプション モデルの両方のトレーニングにより適したキャプションを生成する新たな可能性が開かれます。
要約(オリジナル)
State-of-The-Art (SoTA) image captioning models often rely on the Microsoft COCO (MS-COCO) dataset for training. This dataset contains annotations provided by human annotators, who typically produce captions averaging around ten tokens. However, this constraint presents a challenge in effectively capturing complex scenes and conveying detailed information. Furthermore, captioning models tend to exhibit bias towards the “average” caption, which captures only the more general aspects. What would happen if we were able to automatically generate longer captions, thereby making them more detailed? Would these captions, evaluated by humans, be more or less representative of the image content compared to the original MS-COCO captions? In this paper, we present a novel approach to address previous challenges by showcasing how captions generated from different SoTA models can be effectively fused, resulting in richer captions. Our proposed method leverages existing models from the literature, eliminating the need for additional training. Instead, it utilizes an image-text based metric to rank the captions generated by SoTA models for a given image. Subsequently, the top two captions are fused using a Large Language Model (LLM). Experimental results demonstrate the effectiveness of our approach, as the captions generated by our model exhibit higher consistency with human judgment when evaluated on the MS-COCO test set. By combining the strengths of various SoTA models, our method enhances the quality and appeal of image captions, bridging the gap between automated systems and the rich, informative nature of human-generated descriptions. This advance opens up new possibilities for generating captions that are more suitable for the training of both vision-language and captioning models.
arxiv情報
著者 | Simone Bianco,Luigi Celona,Marco Donzella,Paolo Napoletano |
発行日 | 2023-06-20 15:13:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google