要約
アダプタは、最小限のパラメータをモデルに追加して微調整するPEFT(Parameter-Efficient Fine-Tuning)アプローチと位置づけられている。しかし、アダプターは、PEFTがトレーニング/デプロイメントの効率や保守性/拡張性の利点につながるかどうかを理解するために十分に分析されていません。我々は、教師あり、言語横断的なゼロショット設定における多くのアダプタ、タスク、言語に関する広範な実験を通じて、自然言語理解(NLU)タスクにおいて、アダプタのパラメータ効率は、モデルの完全なファインチューニングと比較して効率化につながらないことを明確に示しています。より正確には、アダプタは訓練に比較的コストがかかり、展開の待ち時間も若干長くなる。さらに、アダプターの保守性・拡張性の利点は、フルファインチューニングによるマルチタスクトレーニングのような、よりシンプルなアプローチで達成することができ、トレーニング時間も比較的早くなる。したがって、NLUタスクの中程度のサイズのモデルについては、アダプターを使用するよりも、完全な微調整やマルチタスクトレーニングに頼ることを推奨します。我々のコードは https://github.com/AI4Bharat/adapter-efficiency で入手可能です。
要約(オリジナル)
Adapters have been positioned as a parameter-efficient fine-tuning (PEFT) approach, whereby a minimal number of parameters are added to the model and fine-tuned. However, adapters have not been sufficiently analyzed to understand if PEFT translates to benefits in training/deployment efficiency and maintainability/extensibility. Through extensive experiments on many adapters, tasks, and languages in supervised and cross-lingual zero-shot settings, we clearly show that for Natural Language Understanding (NLU) tasks, the parameter efficiency in adapters does not translate to efficiency gains compared to full fine-tuning of models. More precisely, adapters are relatively expensive to train and have slightly higher deployment latency. Furthermore, the maintainability/extensibility benefits of adapters can be achieved with simpler approaches like multi-task training via full fine-tuning, which also provide relatively faster training times. We, therefore, recommend that for moderately sized models for NLU tasks, practitioners should rely on full fine-tuning or multi-task training rather than using adapters. Our code is available at https://github.com/AI4Bharat/adapter-efficiency.
arxiv情報
著者 | Nandini Mundra,Sumanth Doddapaneni,Raj Dabre,Anoop Kunchukuttan,Ratish Puduppully,Mitesh M. Khapra |
発行日 | 2023-05-12 14:05:45+00:00 |
arxivサイト | arxiv_id(pdf) |