Robustness Analysis of Video-Language Models Against Visual and Language Perturbations

要約

大規模なデータセットでの視覚と言語の共同モデリングは、最近、単一モーダル学習と比較した場合、マルチモーダル タスクで良好な進歩を示しています。
ただし、現実世界の摂動に対するこれらのアプローチの堅牢性は研究されていません。
この研究では、現実世界のさまざまな摂動に対するビデオ言語モデルの最初の大規模なロバスト性研究を実行します。
私たちはテキストからビデオへの検索に焦点を当て、90 の異なる視覚的摂動と 35 の異なるテキスト摂動を利用する 2 つの大規模ベンチマーク データセット、MSRVTT-P と YouCook2-P を提案します。
この研究では、研究されたモデルからいくつかの興味深い初期発見が明らかになりました。1) モデルは一般に、テキストのみが摂動された場合よりもビデオのみが摂動された場合の方が影響を受けやすくなります、2) 事前にトレーニングされたモデルは、最初からトレーニングされたモデルよりも堅牢です。
3) モデルは動きやアクションよりもシーンやオブジェクトに注目します。
この研究がベンチマークとして機能し、堅牢なビデオ言語学習における将来の研究の指針となることを願っています。
この調査で紹介されたベンチマークとコードおよびデータセットは、https://bit.ly/3CNOly4 で入手できます。

要約(オリジナル)

Joint visual and language modeling on large-scale datasets has recently shown good progress in multi-modal tasks when compared to single modal learning. However, robustness of these approaches against real-world perturbations has not been studied. In this work, we perform the first extensive robustness study of video-language models against various real-world perturbations. We focus on text-to-video retrieval and propose two large-scale benchmark datasets, MSRVTT-P and YouCook2-P, which utilize 90 different visual and 35 different text perturbations. The study reveals some interesting initial findings from the studied models: 1) models are generally more susceptible when only video is perturbed as opposed to when only text is perturbed, 2) models that are pre-trained are more robust than those trained from scratch, 3) models attend more to scene and objects rather than motion and action. We hope this study will serve as a benchmark and guide future research in robust video-language learning. The benchmark introduced in this study along with the code and datasets is available at https://bit.ly/3CNOly4.

arxiv情報

著者 Madeline C. Schiappa,Shruti Vyas,Hamid Palangi,Yogesh S. Rawat,Vibhav Vineet
発行日 2023-07-18 17:23:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク