Are Multimodal Models Robust to Image and Text Perturbations?


このホワイト ペーパーでは、5 つのタスク (画像テキスト検索、視覚推論、視覚含意、画像キャプション、およびテキストから画像への生成) に関する一般的な摂動下で、9 つの一般的なオープンソースの画像テキスト モデルの堅牢性を調査します。
特に、既存のデータセットの上に 17 の画像摂動と 16 のテキスト摂動技術を適用することにより、いくつかの新しいマルチモーダル ロバスト性ベンチマークを提案します。
また、マルチモーダル モデルを適切に評価するために、2 つの新しい堅牢性メトリック (MMI と MOR) を導入します。


Multimodal image-text models have shown remarkable performance in the past few years. However, evaluating their robustness against distribution shifts is crucial before adopting them in real-world applications. In this paper, we investigate the robustness of 9 popular open-sourced image-text models under common perturbations on five tasks (image-text retrieval, visual reasoning, visual entailment, image captioning, and text-to-image generation). In particular, we propose several new multimodal robustness benchmarks by applying 17 image perturbation and 16 text perturbation techniques on top of existing datasets. We observe that multimodal models are not robust to image and text perturbations, especially to image perturbations. Among the tested perturbation methods, character-level perturbations constitute the most severe distribution shift for text, and zoom blur is the most severe shift for image data. We also introduce two new robustness metrics (MMI and MOR) for proper evaluations of multimodal models. We hope our extensive study sheds light on new directions for the development of robust multimodal models.


著者 Jielin Qiu,Yi Zhu,Xingjian Shi,Florian Wenzel,Zhiqiang Tang,Ding Zhao,Bo Li,Mu Li
発行日 2022-12-15 18:52:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク