要約
現在のマルチモーダル モデルは、ビジョンと言語 (V+L) タスクの解決を目的としており、主にビジョン エンコーダー (VE) を特徴抽出器として再利用しています。
さまざまなアーキテクチャで、さまざまなデータや目的に基づいてトレーニングされた多くの VE が公開されていますが、それらは下流の V+L タスク向けに設計されていません。
それにもかかわらず、現在の研究のほとんどは、事前トレーニングされた \textit{single} VE が汎用エンコーダーとして機能できることを前提としています。
この作業では、分析に焦点を当て、異なる VE 内に保存されている情報が相補的であるかどうか、つまり、複数の VE の機能をモデルに提供することでターゲット タスクのパフォーマンスが向上するかどうか、およびそれらがどのように組み合わされるかを理解することを目的としています。
6 つの下流 V+L タスクで 3 つの人気のある VE を徹底的に実験し、注意力と VE ドロップアウト パターンを分析します。
私たちの分析は、多様な VE が相互に補完し合い、その結果、下流の V+L タスクのパフォーマンスが向上することを示唆していますが、その向上は単純なアンサンブル効果によるものではありません (つまり、エンコーダーの数を増やしてもパフォーマンスが必ずしも向上するとは限りません)。
\textit{再利用}されているのではなく、V+L タスク用に明示的に \textit{設計された}将来の VE には、ターゲット V+L タスクのパフォーマンスを向上させる可能性があることを実証します。
要約(オリジナル)
Current multimodal models, aimed at solving Vision and Language (V+L) tasks, predominantly repurpose Vision Encoders (VE) as feature extractors. While many VEs — of different architectures, trained on different data and objectives — are publicly available, they are not designed for the downstream V+L tasks. Nonetheless, most current work assumes that a \textit{single} pre-trained VE can serve as a general-purpose encoder. In this work, we focus on analysis and aim to understand whether the information stored within different VEs is complementary, i.e. if providing the model with features from multiple VEs can improve the performance on a target task, and how they are combined. We exhaustively experiment with three popular VEs on six downstream V+L tasks and analyze the attention and VE-dropout patterns. Our analyses suggest that diverse VEs complement each other, resulting in improved downstream V+L task performance, where the improvements are not due to simple ensemble effects (i.e. the performance does not always improve when increasing the number of encoders). We demonstrate that future VEs, which are not \textit{repurposed}, but explicitly \textit{designed} for V+L tasks, have the potential of improving performance on the target V+L tasks.
arxiv情報
著者 | Gregor Geigle,Chen Cecilia Liu,Jonas Pfeiffer,Iryna Gurevych |
発行日 | 2023-06-08 15:42:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google