Image Captioners Sometimes Tell More Than Images They See



– 画像説明は、与えられた画像から記述的なテキストを生成する「画像からテキストへ(image-to-text)」の一種であり、ディープラーニングの時代に急速に発展してきている。
– 画像説明によって生成された記述的なテキストには、元の画像に含まれる情報がどの程度保持されているのかを調べるため、画像に言及せずにのみテキストから画像を分類する実験を行い、通常の画像ベースの分類器からの結果と比較した。
– 我々は、災害画像分類タスクであるCrisisNLPに関して、いくつかの画像説明モデルを評価し、記述的なテキスト分類器が、通常の画像ベースの分類器よりも高い正確度を達成することがあることを示した。さらに、画像ベースの分類器と記述的なテキスト分類器を融合させることで、正確度が向上することを示した。


Image captioning, a.k.a. ‘image-to-text,’ which generates descriptive text from given images, has been rapidly developing throughout the era of deep learning. To what extent is the information in the original image preserved in the descriptive text generated by an image captioner? To answer that question, we have performed experiments involving the classification of images from descriptive text alone, without referring to the images at all, and compared results with those from standard image-based classifiers. We have evaluate several image captioning models with respect to a disaster image classification task, CrisisNLP, and show that descriptive text classifiers can sometimes achieve higher accuracy than standard image-based classifiers. Further, we show that fusing an image-based classifier with a descriptive text classifier can provide improvement in accuracy.


著者 Honori Udo,Takafumi Koshinaka
発行日 2023-05-11 03:58:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CV, cs.MM パーマリンク