MuDPT: Multi-modal Deep-symphysis Prompt Tuning for Large Pre-trained Vision-Language Models

要約

CoOp のような迅速な調整は、最近、CLIP のような大規模な事前トレーニング済み視覚言語モデルの出現により、さまざまな下流タスクで有望な視覚認識と転移学習能力を示しています。
ただし、既存のユニモーダル プロンプト チューニング アプローチでは、最適なパフォーマンスが得られない可能性があります。このユニモーダル設計では、事前トレーニング済みモデルのテキスト表現と視覚表現の元の配置が崩れるためです。
事前トレーニングされた視覚言語モデルの性質に触発され、私たちはプロンプト チューニングの完全性を達成することを目指し、MuDPT と呼ばれるマルチモーダル深部結合プロンプト チューニングと呼ばれる新しいアプローチを提案します。これは、追加の方法で独立したマルチモーダル プロンプト チューニングを拡張します。
モデルに依存しない変換ネットワークを学習して、深い階層の双方向プロンプト融合を可能にします。
数ショットの視覚認識と領域外の一般化タスクにおける MuDPT の有効性を評価します。
MuDPT は、最先端の手法と比較して、テキスト表現と視覚表現の相乗的な調整により、明らかに余裕を持って優れた認識能力と汎化能力を実現します。
私たちのコードは https://github.com/Mechrev0/MuDPT で入手できます。

要約(オリジナル)

Prompt tuning, like CoOp, has recently shown promising vision recognizing and transfer learning ability on various downstream tasks with the emergence of large pre-trained vision-language models like CLIP. However, we identify that existing uni-modal prompt tuning approaches may result in sub-optimal performance since this uni-modal design breaks the original alignment of textual and visual representations in the pre-trained model. Inspired by the nature of pre-trained vision-language models, we aim to achieve completeness in prompt tuning and propose a novel approach called Multi-modal Deep-symphysis Prompt Tuning, dubbed as MuDPT, which extends independent multi-modal prompt tuning by additionally learning a model-agnostic transformative network to allow deep hierarchical bi-directional prompt fusion. We evaluate the effectiveness of MuDPT on few-shot vision recognition and out-of-domain generalization tasks. Compared with the state-of-the-art methods, MuDPT achieves better recognition and generalization ability with an apparent margin thanks to synergistic alignment of textual and visual representations. Our code is available at: https://github.com/Mechrev0/MuDPT.

arxiv情報

著者 Yongzhu Miao,Shasha Li,Jintao Tang,Ting Wang
発行日 2023-06-20 09:15:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク