AutoPEFT: Automatic Configuration Search for Parameter-Efficient Fine-Tuning

要約

大規模な事前トレーニング済み言語モデルは、タスク固有の微調整を通じて下流の NLP タスクで広く使用されていますが、そのような手順にはコストがかかる可能性があります。
最近、パラメータ効率の良い微調整 (PEFT) 手法は、フル モデルの微調整 (FFT) と比較してはるかに少ない数のパラメータを更新しながら、強力なタスク パフォーマンスを達成しました。
ただし、PEFT 構成のアーキテクチャ、調整可能なパラメータの数、さらには PEFT モジュールが挿入される層など、情報に基づいた設計の選択を行うことは簡単ではありません。
したがって、手動で設計された現在の構成は、パフォーマンスと効率のトレードオフの点で最適ではない可能性が高くなります。
ニューラル アーキテクチャ検索の進歩に触発され、私たちは自動 PEFT 構成選択のための AutoPEFT を提案します。まず、複数の代表的な PEFT モジュールを構成要素として表現力豊かな構成検索空間を設計します。
低コストのセットアップで多目的ベイジアン最適化を使用すると、さまざまな数のパラメータ間でパフォーマンスとコストの強力なトレードオフがあり、さまざまなタスク間でも高度に移行できる、パレート最適な構成セットが見つかります。
GLUE および SuperGLUE タスクでは、AutoPEFT によって発見された構成が既存の PEFT 手法を大幅に上回り、大幅なトレーニング効率コストを発生させることなく、FFT と同等かそれ以上のパフォーマンスを発揮することが経験的に示されています。

要約(オリジナル)

Large pretrained language models are widely used in downstream NLP tasks via task-specific fine-tuning, but such procedures can be costly. Recently, Parameter-Efficient Fine-Tuning (PEFT) methods have achieved strong task performance while updating a much smaller number of parameters compared to full model fine-tuning (FFT). However, it is non-trivial to make informed design choices on the PEFT configurations, such as their architecture, the number of tunable parameters, and even the layers in which the PEFT modules are inserted. Consequently, it is highly likely that the current, manually designed configurations are suboptimal in terms of their performance-efficiency trade-off. Inspired by advances in neural architecture search, we propose AutoPEFT for automatic PEFT configuration selection: we first design an expressive configuration search space with multiple representative PEFT modules as building blocks. Using multi-objective Bayesian optimisation in a low-cost setup, we then discover a Pareto-optimal set of configurations with strong performance-cost trade-offs across different numbers of parameters that are also highly transferable across different tasks. Empirically, on GLUE and SuperGLUE tasks, we show that AutoPEFT-discovered configurations significantly outperform existing PEFT methods and are on par or better than FFT, without incurring substantial training efficiency costs.

arxiv情報

著者 Han Zhou,Xingchen Wan,Ivan Vulić,Anna Korhonen
発行日 2023-06-06 17:07:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク