要約
LoRA やアダプターなどの主流のパラメーター効率の良い微調整 (PEFT) 手法は、モデルの隠れた状態をより低い次元に投影し、事前トレーニングされたモデルがこの低ランクのボトルネックを通じて新しいデータに適応できるようにします。
ただし、ビジョン言語 (VL) タスクなど、複数のモダリティを伴う PEFT タスクでは、新しいデータに適応するだけでなく、異なるモダリティ間の関係を学習することも必要です。
VL PEFT タスクをターゲットとして、低ランクのボトルネックにおける VL の調整を強化するために、ルーティング関数と呼ばれる一連の操作を提案します。
これらの機能ルーティング関数は線形操作を採用しており、新しいトレーニング可能なパラメーターは導入しません。
彼らの行動を研究するために詳細な分析が行われます。
さまざまな VL PEFT 設定において、ルーティング関数は元の PEFT メソッドのパフォーマンスを大幅に向上させ、VQAv2 ($\text{RoBERTa}_{\text{large}}$+ViT-L/16) で 20\% 以上の向上を達成しました。
COCO キャプションで 30\% (GPT2-medium+ViT-L/16)。
また、CLIP-BART などの事前トレーニング済みマルチモーダル モデルを微調整すると、さまざまな VL PEFT タスクにわたって小規模ながら一貫した改善が見られます。
コードは https://github.com/tingyu215/Routing_VLPEFT で入手できます。
要約(オリジナル)
Mainstream parameter-efficient fine-tuning (PEFT) methods, such as LoRA or Adapter, project a model’s hidden states to a lower dimension, allowing pre-trained models to adapt to new data through this low-rank bottleneck. However, PEFT tasks involving multiple modalities, like vision-language (VL) tasks, require not only adaptation to new data but also learning the relationship between different modalities. Targeting at VL PEFT tasks, we propose a family of operations, called routing functions, to enhance VL alignment in the low-rank bottlenecks. These feature routing functions adopt linear operations and do not introduce new trainable parameters. In-depth analyses are conducted to study their behavior. In various VL PEFT settings, the routing functions significantly improve performance of the original PEFT methods, achieving over 20\% improvement on VQAv2 ($\text{RoBERTa}_{\text{large}}$+ViT-L/16) and 30\% on COCO Captioning (GPT2-medium+ViT-L/16). Also when fine-tuning a pre-trained multimodal model such as CLIP-BART, we observe smaller but consistent improvements across a range of VL PEFT tasks. Our code is available at https://github.com/tingyu215/Routing_VLPEFT.
arxiv情報
著者 | Tingyu Qu,Tinne Tuytelaars,Marie-Francine Moens |
発行日 | 2024-07-12 12:54:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google