Are Multimodal Models Robust to Image and Text Perturbations?

要約

マルチモーダルな画像とテキストのモデルは、過去数年間で驚くべきパフォーマンスを示しました。
ただし、実際のアプリケーションに採用する前に、分布の変化に対する堅牢性を評価することが重要です。
このホワイト ペーパーでは、5 つのタスク (画像テキスト検索、視覚推論、視覚含意、画像キャプション、およびテキストから画像への生成) に関する一般的な摂動下で、9 つの一般的なオープンソースの画像テキスト モデルの堅牢性を調査します。
特に、既存のデータセットの上に 17 の画像摂動と 16 のテキスト摂動技術を適用することにより、いくつかの新しいマルチモーダル ロバスト性ベンチマークを提案します。
マルチモーダルモデルは、画像とテキストの摂動、特に画像の摂動に対して堅牢ではないことがわかります。
テストされた摂動法の中で、文字レベルの摂動はテキストの最も深刻な分布シフトを構成し、ズームブラーは画像データの最も深刻なシフトです。
また、マルチモーダル モデルを適切に評価するために、2 つの新しい堅牢性メトリック (MMI と MOR) を導入します。
私たちの広範な研究が、堅牢なマルチモーダルモデルの開発のための新しい方向性に光を当てることを願っています.

要約(オリジナル)

Multimodal image-text models have shown remarkable performance in the past few years. However, evaluating their robustness against distribution shifts is crucial before adopting them in real-world applications. In this paper, we investigate the robustness of 9 popular open-sourced image-text models under common perturbations on five tasks (image-text retrieval, visual reasoning, visual entailment, image captioning, and text-to-image generation). In particular, we propose several new multimodal robustness benchmarks by applying 17 image perturbation and 16 text perturbation techniques on top of existing datasets. We observe that multimodal models are not robust to image and text perturbations, especially to image perturbations. Among the tested perturbation methods, character-level perturbations constitute the most severe distribution shift for text, and zoom blur is the most severe shift for image data. We also introduce two new robustness metrics (MMI and MOR) for proper evaluations of multimodal models. We hope our extensive study sheds light on new directions for the development of robust multimodal models.

arxiv情報

著者 Jielin Qiu,Yi Zhu,Xingjian Shi,Florian Wenzel,Zhiqiang Tang,Ding Zhao,Bo Li,Mu Li
発行日 2022-12-15 18:52:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク