Meta Learning to Bridge Vision and Language Models for Multimodal Few-Shot Learning

要約

マルチモーダルの少数ショット学習は、視覚と言語モダリティの間に大きなドメインギャップがあるため、困難です。
既存の方法は、凍結された言語モデルへのプロンプトとして視覚的な概念を伝えようとしていますが、仮説空間を縮小するために手動で設計されたタスク誘導に依存しています。
プロセス全体を学習可能にするために、マルチモーダルなメタ学習アプローチを導入します。
具体的には、私たちのアプローチは、モデルのトレーニングを一連の関連するマルチモーダル 少数ショット タスクに分解します。
凍結された大規模なビジョンと言語モデルを効率的に橋渡しし、すでに学習した能力を活用するために、メタ学習者として機能するメタマッパーネットワークを定義します。
メタマッパーの学習可能なパラメーターのみを更新することにより、これらのタスク間で共有されるメタ知識を蓄積することを学習します。
したがって、わずかな勾配の更新で、新しく提示されたサンプルに迅速に適応できます。
重要なことは、手動で設計されたタスク誘導を必要とせずに、完全にデータ駆動型の方法でタスクを誘導することです。
最近提案されたマルチモーダル フューズ ショット ベンチマークに対するアプローチを評価し、ラベル付けされた限られた例のみを観察することで、モデルが新しい視覚的概念を単語に結びつけ、視覚的な質問に答える速度を測定します。
実験結果は、私たちのメタ学習アプローチが、複数のデータセットとさまざまなトレーニング設定全体でベースラインを上回り、計算効率が高いことを示しています。

要約(オリジナル)

Multimodal few-shot learning is challenging due to the large domain gap between vision and language modalities. Existing methods are trying to communicate visual concepts as prompts to frozen language models, but rely on hand-engineered task induction to reduce the hypothesis space. To make the whole process learnable, we introduce a multimodal meta-learning approach. Specifically, our approach decomposes the training of the model into a set of related multimodal few-shot tasks. We define a meta-mapper network, acting as a meta-learner, to efficiently bridge frozen large-scale vision and language models and leverage their already learned capacity. By updating the learnable parameters only of the meta-mapper, it learns to accrue shared meta-knowledge among these tasks. Thus, it can rapidly adapt to newly presented samples with only a few gradient updates. Importantly, it induces the task in a completely data-driven manner, with no need for a hand-engineered task induction. We evaluate our approach on recently proposed multimodal few-shot benchmarks, measuring how rapidly the model can bind novel visual concepts to words and answer visual questions by observing only a limited set of labeled examples. The experimental results show that our meta-learning approach outperforms the baseline across multiple datasets and various training settings while being computationally more efficient.

arxiv情報

著者 Ivona Najdenkoska,Xiantong Zhen,Marcel Worring
発行日 2023-02-28 17:46:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク