$π$-Tuning: Transferring Multimodal Foundation Models with Optimal Multi-task Interpolation

要約

タイトル:$π$- Tuning:最適マルチタスク補間によるマルチモーダル基盤モデルの移転

要約:

– 基盤モデルは、単一モーダルタスクとマルチモーダルタスクの統一されたインタフェースを持つマルチタスク学習において、大きな進歩を遂げています。
– しかしながら、そのようなマルチタスク学習の潜在的な可能性は、移転学習において未だに活用されていません。
– 本研究では、ビジョン、言語、およびビジョン言語タスクのための汎用パラメータ効率的な移転学習手法であるPredict-Interpolate Tuning($\pi$-Tuning)を提案しています。
– 類似したタスクから学習した軽量タスク特化専門家のパラメータを集め、ターゲットダウンストリームタスクを支援します。
– タスクの類似度は、一体型モダリティ非依存空間で予測され、タスク関係を示すスケーラブルなグラフが生成されます。
– $\pi$-Tuningにはいくつかの魅力的な利点があります。最初に、データの乏しいシナリオでは、類似したタスク間のイントラおよびインターモーダルの両方の転移性を柔軟に探索し、転移学習の正確さと頑張りを改善することができます。
– 二番目に、promptおよびadapterのような種々のパラメータ効率的な専門家と互換性がある、マルチタスク予測-補間の転移学習に対する体系的な解決策を提供します。
– 三番目に、14の単一モーダルデータセットと6のマルチモーダルデータセットに対するタスクレベルの相互利益に関する広範な研究から、 $\pi$-Tuningはフルショットと低ショットの領域の両方で、fine-tuningおよび他のパラメータ効率的な転移学習手法を超えています。
– タスクグラフにより、モダリティ間のタスク移譲可能性に関する詳細な解釈可能な分析が可能になります。

要約(オリジナル)

Foundation models have achieved great advances in multi-task learning with a unified interface of unimodal and multimodal tasks. However, the potential of such multi-task learners has not been exploited during transfer learning. In this work, we present a universal parameter-efficient transfer learning method, termed Predict-Interpolate Tuning ($\pi$-Tuning), for vision, language, and vision-language tasks. It aggregates the parameters of lightweight task-specific experts learned from similar tasks to aid the target downstream task. The task similarities are predicted in a unified modality-independent space, yielding a scalable graph to demonstrate task relationships. $\pi$-Tuning has several appealing benefits. First, it flexibly explores both intra- and inter-modal transferability between similar tasks to improve the accuracy and robustness of transfer learning, especially in data-scarce scenarios. Second, it offers a systematical solution for transfer learning with multi-task prediction-and-then-interpolation, compatible with diverse types of parameter-efficient experts, such as prompt and adapter. Third, an extensive study of task-level mutual benefits on 14 unimodal and 6 multimodal datasets shows that $\pi$-Tuning surpasses fine-tuning and other parameter-efficient transfer learning methods both in full-shot and low-shot regimes. The task graph also enables an in-depth interpretable analysis of task transferability across modalities.

arxiv情報

著者 Chengyue Wu,Teng Wang,Yixiao Ge,Zeyu Lu,Ruisong Zhou,Ping Luo,Ying Shan
発行日 2023-04-27 17:49:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク