要約
大規模データセットにおける視覚と言語の統合モデリングは、単一モード学習と比較して、マルチモーダル課題において最近良い進展を見せている。しかし、実世界の擾乱に対するこれらのアプローチの頑健性は研究されていない。本研究では、ビデオと言語に着目し、実世界の様々な擾乱に対するモデルの頑健性について初めて大規模な研究を行う。本研究では、テキストからビデオへの検索に焦点を当て、90種類の視覚的摂動と35種類のテキスト的摂動を用いた2つの大規模なベンチマークデータセット、MSRVTT-PとYouCook2-Pを提案する。本研究では、いくつかの興味深い知見を得ることができた。1) テキストに摂動を与えた場合、映像に摂動を与えた場合と比較して、研究対象のモデルはより頑健である。 2) 変換型テキスト符号化器は、非意味的なテキスト摂動や視覚摂動に対して、単語埋め込み型と比較してより頑健である。3) 2分岐エンコーダを単独で使用した場合、アーキテクチャがクロスアテンションを使用した場合よりも一般的にロバストである。この研究がベンチマークとなり、ロバストなマルチモーダル学習における今後の研究の指針となることを期待しています。
要約(オリジナル)
Joint visual and language modeling on large-scale datasets has recently shown a good progress in multi-modal tasks when compared to single modal learning. However, robustness of these approaches against real-world perturbations has not been studied. In this work, we perform the first extensive robustness study of such models against various real-world perturbations focusing on video and language. We focus on text-to-video retrieval and propose two large-scale benchmark datasets, MSRVTT-P and YouCook2-P, which utilize 90 different visual and 35 different textual perturbations. The study reveals some interesting findings: 1) The studied models are more robust when text is perturbed versus when video is perturbed 2) The transformer text encoder is more robust on non-semantic changing text perturbations and visual perturbations compared to word embedding approaches. 3) Using two-branch encoders in isolation is typically more robust than when architectures use cross-attention. We hope this study will serve as a benchmark and guide future research in robust multimodal learning.
arxiv情報
著者 | Madeline C. Schiappa,Yogesh S. Rawat,Shruti Vyas,Vibhav Vineet,Hamid Palangi |
発行日 | 2022-07-05 16:26:05+00:00 |
arxivサイト | arxiv_id(pdf) |