ECCV Caption: Correcting False Negatives by Collecting Machine-and-Human-verified Image-Caption Associations for MS-COCO

要約

画像-テキストマッチング(ITM)は、Vision and Language(VL)モデルの品質を評価するための一般的なタスクである。しかし、既存のITMベンチマークには大きな制約がある。それは、データ構築のプロセス自体に起因する対応付けの欠落が多いことである。例えば、キャプションは他の類似画像とマッチング可能であるにもかかわらず、1つの画像としかマッチングされない、あるいはその逆もあります。このような大量の偽陰性を修正するために、我々は機械と人間のアノテーターによって欠損した対応関係を提供し、Extended COCO Validation (ECCV) Caption datasetを構築する。アノテーション処理には、様々な特性を持つ5つの最新ITMモデルを採用する。本データセットでは、オリジナルのMS-COCOと比較して、画像とキャプションの関連付けを3.6倍、キャプションと画像の関連付けを8.5倍向上させることに成功した。また、一般的なRecall@K(R@K)ではなく、情報量の多いランキングベースのメトリックmAP@Rを使用することを提案する。我々は、既存の25のVLモデルを既存のベンチマークと提案されたベンチマークで再評価した。その結果、COCO 1K R@K、COCO 5K R@K、CxC R@1といった既存のベンチマークは互いに高い相関があるのに対し、ECCV mAP@Rに移行すると順位が変動することがわかりました。最後に、マシンアノテーターの選択によってもたらされるバイアスの影響について掘り下げます。ソースコードとデータセットは https://github.com/naver-ai/eccv-caption で公開されています。

要約(オリジナル)

Image-Text matching (ITM) is a common task for evaluating the quality of Vision and Language (VL) models. However, existing ITM benchmarks have a significant limitation. They have many missing correspondences, originating from the data construction process itself. For example, a caption is only matched with one image although the caption can be matched with other similar images and vice versa. To correct the massive false negatives, we construct the Extended COCO Validation (ECCV) Caption dataset by supplying the missing associations with machine and human annotators. We employ five state-of-the-art ITM models with diverse properties for our annotation process. Our dataset provides x3.6 positive image-to-caption associations and x8.5 caption-to-image associations compared to the original MS-COCO. We also propose to use an informative ranking-based metric mAP@R, rather than the popular Recall@K (R@K). We re-evaluate the existing 25 VL models on existing and proposed benchmarks. Our findings are that the existing benchmarks, such as COCO 1K R@K, COCO 5K R@K, CxC R@1 are highly correlated with each other, while the rankings change when we shift to the ECCV mAP@R. Lastly, we delve into the effect of the bias introduced by the choice of machine annotator. Source code and dataset are available at https://github.com/naver-ai/eccv-caption

arxiv情報

著者 Sanghyuk Chun,Wonjae Kim,Song Park,Minsuk Chang,Seong Joon Oh
発行日 2022-10-03 15:41:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク