APLe: Token-Wise Adaptive for Multi-Modal Prompt Learning

要約

事前トレーニングされたビジョン言語 (V-L) モデルは、注目すべき候補の中で下流タスクへの一般化のベンチマークを設定します。
V-L モデルの多くの特性は、テキスト入力に対する感度やマルチモーダル プロンプト全体にわたる調整プロセスなどの課題を含め、既存の研究で調査されています。
CLIP のような V-L モデルの高度な利用により、最近のアプローチでは、手作りのプロンプトの代わりに学習可能なプロンプトを導入して汎化パフォーマンスを向上させ、前述の課題に対処しています。
画像融合で広く使用されているレイヤーごとのトレーニングからインスピレーションを得て、CLIP のさまざまなモダリティ ブランチを適応させるための逐次トレーニング プロセスを使用すると、汎化の改善が効率的に促進されることに注目しました。
マルチモーダルプロンプトの課題に対処するという文脈で、視覚と言語の両方のモダリティプロンプトをトークンとして順次調整するためのトークンワイズアダプティブフォーマルチモーダルプロンプト学習(APLe)を提案します。
APLe は、V-L モデルの課題に対処し、両方のモダリティにわたる迅速な学習を促進します。これは、最先端の水準に沿った競争力のある汎化パフォーマンスを示しています。
APLe は、プロンプト長実験において優れた堅牢性と良好なパフォーマンスを示し、V-L モデルを採用する際に絶対的な利点をもたらします。

要約(オリジナル)

Pre-trained Vision-Language (V-L) models set the benchmark for generalization to downstream tasks among the noteworthy contenders. Many characteristics of the V-L model have been explored in existing research including the challenge of the sensitivity to text input and the tuning process across multi-modal prompts. With the advanced utilization of the V-L model like CLIP, recent approaches deploy learnable prompts instead of hand-craft prompts to boost the generalization performance and address the aforementioned challenges. Inspired by layer-wise training, which is wildly used in image fusion, we note that using a sequential training process to adapt different modalities branches of CLIP efficiently facilitates the improvement of generalization. In the context of addressing the multi-modal prompting challenge, we propose Token-wise Adaptive for Multi-modal Prompt Learning (APLe) for tuning both modalities prompts, vision and language, as tokens in a sequential manner. APLe addresses the challenges in V-L models to promote prompt learning across both modalities, which indicates a competitive generalization performance in line with the state-of-the-art. Preeminently, APLe shows robustness and favourable performance in prompt-length experiments with an absolute advantage in adopting the V-L models.

arxiv情報

著者 Guiming Cao,Kaize Shi,Hong Fu,Huaiwen Zhang,Guandong Xu
発行日 2024-01-23 08:54:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク