RoCOCO: Robust Benchmark MS-COCO to Stress-test Robustness of Image-Text Matching Models


タイトル:Robust Benchmark MS-COCO to Stress-test Robustness of Image-Text Matching Models (頑健なベンチマークMS-COCOは画像とテキストのマッチングモデルの頑健性をストレステストする)


– 大規模なビジョン・ランゲージの事前学習モデルやビジュアル・セマンティック埋め込み法が、MS COCO 5Kテストセットの画像とテキストのマッチング(ITM)精度を大幅に向上させている。
– しかし、これらの最新のモデルが野生でどのように頑健であるかは不明である。
– この論文では、ITMモデルの頑健性をストレステストするために、新しい評価ベンチマークを提案する。
– そのため、フーリング画像とキャプションをリトリーバルプールに追加する。
– 具体的には、無関係な画像を挿入して画像を変更し、名詞を置換して文の意味を変えることでキャプションを変更する。
– これらの新しく作成された画像とキャプションをテストセットに追加するだけで、広範囲の最新のモデルの性能(Recall@1)を低下させることがわかった。
– これらの結果から、ビジョン・ランゲージ・モデルの頑健性を向上させるための洞察を提供し、クロスモーダルリトリーバルタスクのより多様なストレステスト方法を考案することが期待される。
– ソースコードとデータセットは、にて入手可能。


Recently, large-scale vision-language pre-training models and visual semantic embedding methods have significantly improved image-text matching (ITM) accuracy on MS COCO 5K test set. However, it is unclear how robust these state-of-the-art (SOTA) models are when using them in the wild. In this paper, we propose a novel evaluation benchmark to stress-test the robustness of ITM models. To this end, we add various fooling images and captions to a retrieval pool. Specifically, we change images by inserting unrelated images, and change captions by substituting a noun, which can change the meaning of a sentence. We discover that just adding these newly created images and captions to the test set can degrade performances (i.e., Recall@1) of a wide range of SOTA models (e.g., 81.9% $\rightarrow$ 64.5% in BLIP, 66.1% $\rightarrow$ 37.5% in VSE$\infty$). We expect that our findings can provide insights for improving the robustness of the vision-language models and devising more diverse stress-test methods in cross-modal retrieval task. Source code and dataset will be available at


著者 Seulki Park,Daeho Um,Hajung Yoon,Sanghyuk Chun,Sangdoo Yun,Jin Young Choi
発行日 2023-04-21 03:45:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク