要約
最近の大規模基礎モデルの急増により、これらのモデルをさまざまな下流タスクに適応させるための効率的な方法の開発が促進されています。
LoRA などの低ランク適応手法は、優れたパラメータ効率と追加の推論遅延がないため、大きな注目を集めています。
この論文では、並列適応ブランチと逐次適応ブランチが微調整中にそれぞれ新しい機能と一般的な機能を学習するという分析に基づいて、アダプター モジュールのより一般的な形式を調査します。
Hydra と名付けられた提案手法は、そのマルチヘッド計算ブランチにより、並列ブランチと逐次ブランチを組み合わせて機能を統合します。これにより、既存の単一ブランチ手法よりも表現力が向上し、微調整においてより広範囲の最適点の探索が可能になります。
プロセス。
さらに、提案された適応方法は、事前トレーニングされた特徴の線形結合を実行することにより、事前トレーニングされた重みを明示的に利用します。
これにより、学習された機能は、さまざまな下流タスクにわたってより優れた汎化パフォーマンスを得ることができます。
さらに、各適応分野の特徴を実証に基づいて包括的に分析します。
比較やアブレーション研究を含む広範な実験を通じて、当社は効率を実証し、Hydra の優れたパフォーマンスを実証しています。
この包括的な評価は、さまざまなアプリケーションにおける Hydra の潜在的な影響と有効性を強調しています。
私たちのコードは \url{https://github.com/extremebird/Hydra} で入手できます。
要約(オリジナル)
The recent surge in large-scale foundation models has spurred the development of efficient methods for adapting these models to various downstream tasks. Low-rank adaptation methods, such as LoRA, have gained significant attention due to their outstanding parameter efficiency and no additional inference latency. This paper investigates a more general form of adapter module based on the analysis that parallel and sequential adaptation branches learn novel and general features during fine-tuning, respectively. The proposed method, named Hydra, due to its multi-head computational branches, combines parallel and sequential branch to integrate capabilities, which is more expressive than existing single branch methods and enables the exploration of a broader range of optimal points in the fine-tuning process. In addition, the proposed adaptation method explicitly leverages the pre-trained weights by performing a linear combination of the pre-trained features. It allows the learned features to have better generalization performance across diverse downstream tasks. Furthermore, we perform a comprehensive analysis of the characteristics of each adaptation branch with empirical evidence. Through an extensive range of experiments, encompassing comparisons and ablation studies, we substantiate the efficiency and demonstrate the superior performance of Hydra. This comprehensive evaluation underscores the potential impact and effectiveness of Hydra in a variety of applications. Our code is available on \url{https://github.com/extremebird/Hydra}
arxiv情報
著者 | Sanghyeon Kim,Hyunmo Yang,Younghyun Kim,Youngjoon Hong,Eunbyung Park |
発行日 | 2023-09-13 12:46:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google