要約
パラメーター効率の高い微調整により、パラメーターのサブセットを更新することで、事前トレーニングされた大規模な基礎モデルが最適化されます。
このクラスでは、低ランク適応 (LoRA) が特に効果的です。
この論文は、微調整中の LoRA 行列のさまざまな役割を調査する取り組みからインスピレーションを得て、低ランクのアダプター行列の重要性における予期せぬ非対称性を特徴付け、活用しています。
具体的には、積 $BA$ を追加してニューラル ネットワークのパラメーター行列を更新すると、$B$ 行列と $A$ 行列には異なる関数があることがわかります。$A$ は入力から特徴を抽出し、$B$ はこれらの関数を使用します。
目的の出力を作成するための機能。
この観察に基づいて、$B$ の微調整は $A$ の微調整より本質的に効果的であること、およびトレーニングされていないランダムな $A$ は微調整された $A$ とほぼ同じパフォーマンスを発揮するはずであることを示します。
情報理論のレンズを使用して、低ランクのアダプターの一般化にも限界を付け、 $B$ のみをトレーニングすることでパラメーターを節約することで限界が改善されることを示しました。
私たちは、RoBERTa、BART-Large、LLaMA-2、および ViT に関する実験で結論を裏付けています。
要約(オリジナル)
Parameter-efficient fine-tuning optimizes large, pre-trained foundation models by updating a subset of parameters; in this class, Low-Rank Adaptation (LoRA) is particularly effective. Inspired by an effort to investigate the different roles of LoRA matrices during fine-tuning, this paper characterizes and leverages unexpected asymmetry in the importance of low-rank adapter matrices. Specifically, when updating the parameter matrices of a neural network by adding a product $BA$, we observe that the $B$ and $A$ matrices have distinct functions: $A$ extracts features from the input, while $B$ uses these features to create the desired output. Based on this observation, we demonstrate that fine-tuning $B$ is inherently more effective than fine-tuning $A$, and that a random untrained $A$ should perform nearly as well as a fine-tuned one. Using an information-theoretic lens, we also bound the generalization of low-rank adapters, showing that the parameter savings of exclusively training $B$ improves the bound. We support our conclusions with experiments on RoBERTa, BART-Large, LLaMA-2, and ViTs.
arxiv情報
著者 | Jiacheng Zhu,Kristjan Greenewald,Kimia Nadjahi,Haitz Sáez de Ocáriz Borde,Rickard Brüel Gabrielsson,Leshem Choshen,Marzyeh Ghassemi,Mikhail Yurochkin,Justin Solomon |
発行日 | 2024-02-27 18:06:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google