要約
パラメーター効率の良い微調整 (PEFT) は、一般化機能を維持しながら基礎モデルを下流のタスク要件に適応させるために広く普及しています。
ただし、追加で導入されるパラメータの量と、適応やハイパーパラメータの検索を成功させるために計算する量は、特に多数の個別のリクエストに対応するために大規模に展開される場合、急速に爆発的に増加する可能性があります。
効果的でパラメータ効率が高く、ハイパーパラメータに堅牢な適応を保証するために、HypErplane Reflections を介して効率的な微調整を実行する ETHER 変換ファミリーを提案します。
設計上、ETHER 変換に必要なパラメータの数は最小限であり、モデルのパフォーマンスが低下する可能性が低く、ハイパーパラメータと学習率の選択に対する堅牢性を示します。
特に、ETHER とその緩和 ETHER+ を導入します。これは、網羅的なハイパーパラメータを使用せずに、複数の画像合成および自然言語タスクにわたって大幅に少ないパラメータ (LoRA や OFT の $\sim$$10$-$100$ 倍低い) で既存の PEFT 手法と同等またはそれを上回るパフォーマンスを発揮します。
チューニング。
最後に、適応のための超球状エネルギー保持が最近重視されている点を調査し、その実用性について疑問を提起します。
コードは https://github.com/mwbini/ether で入手できます。
要約(オリジナル)
Parameter-efficient finetuning (PEFT) has become ubiquitous to adapt foundation models to downstream task requirements while retaining their generalization ability. However, the amount of additionally introduced parameters and compute for successful adaptation and hyperparameter searches can explode quickly, especially when deployed at scale to serve numerous individual requests. To ensure effective, parameter-efficient, and hyperparameter-robust adaptation, we propose the ETHER transformation family, which performs Efficient fineTuning via HypErplane Reflections. By design, ETHER transformations require a minimal number of parameters, are less likely to deteriorate model performance, and exhibit robustness to hyperparameter and learning rate choices. In particular, we introduce ETHER and its relaxation ETHER+, which match or outperform existing PEFT methods with significantly fewer parameters ($\sim$$10$-$100$ times lower than LoRA or OFT) across multiple image synthesis and natural language tasks without exhaustive hyperparameter tuning. Finally, we investigate the recent emphasis on Hyperspherical Energy retention for adaptation and raise questions on its practical utility. The code is available at https://github.com/mwbini/ether.
arxiv情報
| 著者 | Massimo Bini,Karsten Roth,Zeynep Akata,Anna Khoreva | 
| 発行日 | 2024-10-11 12:41:48+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
