MTLoRA: A Low-Rank Adaptation Approach for Efficient Multi-Task Learning

要約

大規模なデータセットで事前トレーニングされたモデルをさまざまな下流タスクに適応させることは、深層学習における一般的な戦略です。
その結果、最小限のパラメーターのみをトレーニングしながら、事前トレーニングされたモデルをさまざまなタスクに適応させるための有望な方法として、パラメーター効率の高い微調整方法が登場しました。
これらの手法のほとんどはシングルタスク適応用に設計されていますが、マルチタスク学習 (MTL) アーキテクチャにおけるパラメータ効率の高いトレーニングはまだ解明されていません。
このペーパーでは、MTL モデルのパラメーター効率の高いトレーニングのための新しいフレームワークである MTLoRA を紹介します。
MTLoRA は、タスク非依存およびタスク固有の低ランク適応モジュールを採用しています。これにより、MTL 微調整におけるパラメーター空間のもつれが効果的に解消され、それによってモデルがタスクの特殊化と MTL コンテキスト内での相互作用の両方を適切に処理できるようになります。
私たちは MTLoRA を階層トランスフォーマーベースの MTL アーキテクチャに適用し、複数の下流の高密度予測タスクに適応させました。
PASCAL データセットに対する広範な実験により、MTLoRA は、トレーニング可能なパラメーターの数を 3.6 分の 1 に減らしながら、MTL モデルを完全に微調整する場合と比較して、下流タスクでより高い精度を達成できることがわかりました。
さらに、MTLoRA は、トレーニング可能なパラメーターの数と下流タスクの精度の間にパレート最適トレードオフを確立し、精度と効率の両方で現在の最先端のパラメーター効率の高いトレーニング方法を上回ります。
私たちのコードは公開されています。

要約(オリジナル)

Adapting models pre-trained on large-scale datasets to a variety of downstream tasks is a common strategy in deep learning. Consequently, parameter-efficient fine-tuning methods have emerged as a promising way to adapt pre-trained models to different tasks while training only a minimal number of parameters. While most of these methods are designed for single-task adaptation, parameter-efficient training in Multi-Task Learning (MTL) architectures is still unexplored. In this paper, we introduce MTLoRA, a novel framework for parameter-efficient training of MTL models. MTLoRA employs Task-Agnostic and Task-Specific Low-Rank Adaptation modules, which effectively disentangle the parameter space in MTL fine-tuning, thereby enabling the model to adeptly handle both task specialization and interaction within MTL contexts. We applied MTLoRA to hierarchical-transformer-based MTL architectures, adapting them to multiple downstream dense prediction tasks. Our extensive experiments on the PASCAL dataset show that MTLoRA achieves higher accuracy on downstream tasks compared to fully fine-tuning the MTL model while reducing the number of trainable parameters by 3.6x. Furthermore, MTLoRA establishes a Pareto-optimal trade-off between the number of trainable parameters and the accuracy of the downstream tasks, outperforming current state-of-the-art parameter-efficient training methods in both accuracy and efficiency. Our code is publicly available.

arxiv情報

著者 Ahmed Agiza,Marina Neseem,Sherief Reda
発行日 2024-03-29 17:43:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク