$π$-Tuning: Transferring Multimodal Foundation Models with Optimal Multi-task Interpolation

要約

【タイトル】$π$-Tuning: 最適なマルチタスク補間によるマルチモーダルファンデーションモデルの転移

【要約】
– ファンデーションモデルは、単一モーダルとマルチモーダルタスクの統合インターフェースにより、マルチタスク学習において大きな進展を遂げています。
– しかし、そのようなマルチタスクラーナーの潜在能力は、転移学習時には十分に活用されていない。
– この研究では、ビジョン、言語、およびビジョン言語タスクのための普遍的なパラメーターエフィシエントな転移学習手法を示し、Predict-Interpolate Tuning ($\pi$-Tuning) と呼ぶ。
– それは、類似したタスクから学習された軽量なタスク専用エキスパートのパラメータを集約し、ターゲットの下流タスクを支援する。
– タスクの類似性は、一元化されたモダリティ非依存空間で予測され、タスクの関係を示すスケーラブルなグラフを生成する。
– $\pi$-Tuningには、次のような魅力的な利点があります。
– データが不十分なシナリオにおいて、似たようなタスク間の両方の内部および間接的な転送性を柔軟に探索し、転移学習の精度と堅牢性を向上させる。
– プロンプトやアダプタなど、多様なパラメータエフィシエントなエキスパートのタイプに対応した、マルチタスク予測-補間によるトランスファーラーニングの体系的な解決策を提供する。
– 14個の単一モーダルおよび6個のマルチモーダルデータセットにおけるタスクレベル相互利益の詳細な研究により、$\pi$-Tuningはフルショットおよびローショットの両方のレジームにおいて、ファインチューニングや他のパラメータエフィシエントな転移学習手法を超えることを示した。
– タスクグラフは、モダリティ間でのタスク転送性の深い解釈可能な分析を可能にする。

要約(オリジナル)

Foundation models have achieved great advances in multi-task learning with a unified interface of unimodal and multimodal tasks. However, the potential of such multi-task learners has not been exploited during transfer learning. In this work, we present a universal parameter-efficient transfer learning method, termed Predict-Interpolate Tuning ($\pi$-Tuning), for vision, language, and vision-language tasks. It aggregates the parameters of lightweight task-specific experts learned from similar tasks to aid the target downstream task. The task similarities are predicted in a unified modality-independent space, yielding a scalable graph to demonstrate task relationships. $\pi$-Tuning has several appealing benefits. First, it flexibly explores both intra- and inter-modal transferability between similar tasks to improve the accuracy and robustness of transfer learning, especially in data-scarce scenarios. Second, it offers a systematical solution for transfer learning with multi-task prediction-and-then-interpolation, compatible with diverse types of parameter-efficient experts, such as prompt and adapter. Third, an extensive study of task-level mutual benefits on 14 unimodal and 6 multimodal datasets shows that $\pi$-Tuning surpasses fine-tuning and other parameter-efficient transfer learning methods both in full-shot and low-shot regimes. The task graph also enables an in-depth interpretable analysis of task transferability across modalities.

arxiv情報

著者 Chengyue Wu,Teng Wang,Yixiao Ge,Zeyu Lu,Ruisong Zhou,Ying Shan,Ping Luo
発行日 2023-04-28 02:10:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク